# Ján Holp *Rok začiatku štúdia*: 2016 ## Diplomová práca 2021 *Názov diplomovej práce*: Systém získavania informácií v slovenskom jazyku. *Meno vedúceho*: Ing. Daniel Hládek, PhD. *Zadanie diplomovej práce*: 1. Vypracujte prehľad metód ohodnotenia dokumentov v systémoch získavania informácií. 2. Implementujte jednoduchý systém pre získavanie informácií v slovenskom jazyku, v ktorom využijete ohodnotenie dokumentov. 3. Navrhnite a vypracujte experimenty, v ktorých vyhodnotíte vybrané metódy odhodnotenia dokumentov. 4. Navrhnite možné zlepšenia presnosti vyhľadávania. ## Diplomový projekt 2020 Stretnutie 20.2.2020 Úlohy na tento semester: - Nainštalovať Elasticsearch a zindexovať veľkú databázu dát z webu. - Nájsť spôsob ako vytvoriť verejne prístupné demo. Do ďalšieho stretnutia: - Vytvorte git repozitár a dajte tam výsledky z bakalárskej práce. Vytvorte k tomu návod. - Porozmýšľajte nad HTML používateľským rozhraním. Revízia 9.4.2020: *Návod na prácu s Elasticsearch* : [Návod](./dp2021/navod.md) *Návod na spustenie web aplikácie* : [Návod](./dp2021/web_api.md) *Záznam o doterajšom pokroku* : [Pokrok](./dp2021/pokrok.md) Úloha: - Nainštalujte si a oboznámte sa s [agentom pre získavanie textu](https://git.kemt.fei.tuke.sk/dano/websucker). - Zistite, aká je štruktúra dokumentov v indexoch. - vytvorte návrh a prototyp webovej aplikácie ktorá bude slúžiť ako rozhranie k vyhľadávaciemu indexu. ## Tímový projekt 2019 *Písomná práca* : [Rešerš](./timovy_projekt) *Úlohy tímového projektu*: - Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing" - Sústreďte sa najprv na algoritmus PageRank a BM25 - citujte 10 najvýznamnejších bibliografických zdrojov ### Poznámky k vypracovaniu DP - možnosť pracovať s veľkými dátami Elasticsearch, je nutné sprevádzkovať ES Cluster. - možnosť vypracovať jednoduché demo web vyhľadávača - inšpirácia Agent pre získavanie textu "dano/websucker" - Pozrite si Python knižnice pre elasticsearch, a information retrieval (pagerank a pod.) ## Bakalárska práca 2019 *Meno vedúceho*: Ing. Daniel Hládek, PhD. *Názov bakalárskej práce*: Vyhľadávač na slovenskom internete *Text bakalárskej práce*: (https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1) *Zadanie bakalárskej práce*: 1. Zostaviť prehľad aktuálnych metód vyhľadávania v textových dátach a metód vyhodnotenia presnosti. 2. Navrhnúť a opísať vlastnú metódu indexovania a vyhľadávania v slovenskom texte. 3. Navrhnúť a vykonať sadu experimentov pomocou ktorých sa vyhodnotí navrhnutá metóda indexovania a vyhľadávania. 4. Na základe experimentov navrhnúť vylepšenia navrhnutej metódy vyhľadávania. [Bakalárska práca 2018 - Vyhľadávač na slovenskom internete](https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1)