--- title: Ján Holp published: true taxonomy: category: [dp2021,bp2019] tag: [ir,nlp] author: Daniel Hladek --- # Ján Holp *Rok začiatku štúdia*: 2016 ## Diplomová práca 2021 *Názov diplomovej práce*: Systém získavania informácií v slovenskom jazyku. *Meno vedúceho*: Ing. Daniel Hládek, PhD. *Zadanie diplomovej práce*: 1. Vypracujte prehľad metód ohodnotenia dokumentov v systémoch získavania informácií. 2. Implementujte jednoduchý systém pre získavanie informácií v slovenskom jazyku, v ktorom využijete ohodnotenie dokumentov. 3. Navrhnite a vypracujte experimenty, v ktorých vyhodnotíte vybrané metódy odhodnotenia dokumentov. 4. Navrhnite možné zlepšenia presnosti vyhľadávania. ## Diplomový projekt 2 2020 Zásobník úloh: - Urobiť verejné demo - nasadenie pomocou systému Docker - zlepšenie Web UI - vytvoriť REST api pre indexovanie dokumentu. - V indexe prideliť ohodnotenie každému dokumentu podľa viacerých metód, napr. PageRank - Využiť vyhodnotenie pri vyhľadávaní - **Použiť overovaciu databázu SCNC na vyhodnotenie každej metódy** - **Do konca zimného semestra vytvoriť "Mini Diplomovú prácu cca 8 strán s experimentami" vo forme článku** Virtuálne stretnutie 6.11:2020: Stav: - Riešenie problémov s cassandrou a javascriptom. Ako funguje funkcia then? Úlohy na ďalšie stretnutie: - vypracujte funkciu na indexovanie. Vstup je dokument (objekt s textom a metainformáciami). Fukcia zaindexuje dokument do ES. - Naštudujte si ako funguje funkcia then a čo je to callback. - Naštudujte si ako sa používa Promise. - Naštudujte si ako funguje async - await. - https://developer.mozilla.org/en-US/docs/Learn/JavaScript/Asynchronous/ Virtuálne stretnutie 23.10:2020: Stav: - Riešenie problémov s cassandrou. Ako vybrať dáta podľa primárneho kľúča. Do ďďalšiehio stretnutia: - pokračovať v otvorených úlohách. - urobte funkciu pre indexovanie jedného dokumentu. Virtuálne stretnutie 16.10. Stav: - Riešenie problémov s pripojením na Cassandru. - Riešenie spôsobu výberu dát z databázý a indexovanie. Do ďalšieho stretnutia: - Pokračovať v otvorených úlohách z minulého stretnutia. Virtuálne stretnutie 2.10.2020 Urobené: - Výber a indexovanie dát z Cassandry Do ďalšieho stretnutia: - pracovať ďalej na indexovaní, použite Cassandra Javascript API - urobte návrh metódy PageRank - urobte si GIT repozitár nazvite ho dp2021 a dajte tam zdrojové kódy - priprave Vaše kódy do formy web aplikácie - backend s REST API - frontend s Javascriptom - skúste pripraviť Dockerfile s Vašou aplikáciou ## Diplomový projekt 2020 Virtuálne stretnutie 23.6.2020: Hotové: - funguje databáza Cassandra - funguje web rozhranie - funguje indexovanie zo súboru. Výsledky sú v [ZIP súbore](./dp2021/zdrojove_subory/skweb.zip) Treba dokončiť: - Indexovanie z Cassandra do ES Virtuálne stretnutie 14.5.2020: Nové úlohy: - Rozbehať Cassandra DB a agenta pre získavanie textu - Indexovať dokumnety z Cassandra DB do Elasticsearch - Pokračovať na práci na Web rozhraní - Doriešiť obnovenie slovenskej konfigurácie Urobené: - rozrobené web rozhranie - rozrobené indexovanie do ElasticSearch Revízia 13.5.2020: - Potrebné skompletizovať zdrojové kódy. - Nová verzia agenta pre získavanie textu: https://git.kemt.fei.tuke.sk/dano/websucker-pip Revízia 9.4.2020: *Návod na prácu s Elasticsearch* : [Návod](./dp2021/navod.md) *Návod na spustenie web aplikácie* : [Návod](./dp2021/web_api.md) *Záznam o doterajšom pokroku* : [Pokrok](./dp2021/pokrok.md) Úloha: - Nainštalujte si a oboznámte sa s [agentom pre získavanie textu](https://git.kemt.fei.tuke.sk/dano/websucker). - Zistite, aká je štruktúra dokumentov v indexoch. - vytvorte návrh a prototyp webovej aplikácie ktorá bude slúžiť ako rozhranie k vyhľadávaciemu indexu. Stretnutie 20.2.2020 Úlohy na tento semester: - Nainštalovať Elasticsearch a zindexovať veľkú databázu dát z webu. - Nájsť spôsob ako vytvoriť verejne prístupné demo. Do ďalšieho stretnutia: - Vytvorte git repozitár a dajte tam výsledky z bakalárskej práce. Vytvorte k tomu návod. - Porozmýšľajte nad HTML používateľským rozhraním. ## Tímový projekt 2019 *Písomná práca* : [Rešerš](./timovy_projekt) *Úlohy tímového projektu*: - Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing" - Sústreďte sa najprv na algoritmus PageRank a BM25 - citujte 10 najvýznamnejších bibliografických zdrojov ### Poznámky k vypracovaniu DP - možnosť pracovať s veľkými dátami Elasticsearch, je nutné sprevádzkovať ES Cluster. - možnosť vypracovať jednoduché demo web vyhľadávača - inšpirácia Agent pre získavanie textu "dano/websucker" - Pozrite si Python knižnice pre elasticsearch, a information retrieval (pagerank a pod.) ## Bakalárska práca 2019 *Meno vedúceho*: Ing. Daniel Hládek, PhD. *Názov bakalárskej práce*: Vyhľadávač na slovenskom internete *Text bakalárskej práce*: (https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1) *Zadanie bakalárskej práce*: 1. Zostaviť prehľad aktuálnych metód vyhľadávania v textových dátach a metód vyhodnotenia presnosti. 2. Navrhnúť a opísať vlastnú metódu indexovania a vyhľadávania v slovenskom texte. 3. Navrhnúť a vykonať sadu experimentov pomocou ktorých sa vyhodnotí navrhnutá metóda indexovania a vyhľadávania. 4. Na základe experimentov navrhnúť vylepšenia navrhnutej metódy vyhľadávania. [Bakalárska práca 2018 - Vyhľadávač na slovenskom internete](https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1)