forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			246 lines
		
	
	
		
			7.1 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			246 lines
		
	
	
		
			7.1 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Ján Holp
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [dp2021,bp2019]
 | |
|     tag: [ir,nlp,pagerank]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| # Ján Holp
 | |
| 
 | |
| *Rok začiatku štúdia*: 2016
 | |
| 
 | |
| ## Diplomová práca 2021
 | |
| 
 | |
| *Názov diplomovej práce*: Systém získavania informácií v slovenskom jazyku.
 | |
| 
 | |
| *Meno vedúceho*:  Ing. Daniel Hládek, PhD.
 | |
| 
 | |
| *Zadanie diplomovej práce*:
 | |
| 
 | |
| 1. Vypracujte prehľad metód ohodnotenia dokumentov v systémoch získavania informácií.
 | |
| 2. Implementujte jednoduchý systém pre získavanie informácií v slovenskom jazyku, v ktorom využijete ohodnotenie dokumentov.
 | |
| 3. Navrhnite a vypracujte experimenty, v ktorých vyhodnotíte vybrané metódy odhodnotenia dokumentov.
 | |
| 4. Navrhnite možné zlepšenia presnosti vyhľadávania.
 | |
| 
 | |
| Stretnutie 12.3.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Implementovaný PageRank, indexovanie webových stránok
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pripravte experiment s PageRank, databáza SCNC2, vyhodnotenie pomocou P-R-F1
 | |
| - Pozrite do knihy na metódy vyhodnotenta s PageRank
 | |
| - Pozrite do knihy a skúste pripraviť inú metriku.
 | |
| - Popri tom priprave demonštráciu s webovým rozhraním.
 | |
| 
 | |
| ## Diplomový projekt 2  2020
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Urobiť verejné demo - nasadenie pomocou systému Docker. Využiť veľké slovenské dáta z internetu.
 | |
| - zlepšenie Web UI
 | |
| - vytvoriť REST api pre indexovanie dokumentu.
 | |
| - V indexe prideliť ohodnotenie každému dokumentu podľa viacerých metód, napr. PageRank
 | |
| - Využiť vyhodnotenie pri vyhľadávaní
 | |
| 
 | |
| - **Použiť overovaciu databázu SCNC na vyhodnotenie každej metódy**
 | |
| - **Do konca zimného semestra vytvoriť "Mini Diplomovú prácu cca 8 strán s experimentami" vo forme článku**
 | |
| 
 | |
| Virtuálne stretnutie 7.1.2020:
 | |
| 
 | |
| Dohoda na zmene smerovania práce. Chceme:
 | |
| - Rozšíriť BP o vyhľadávanie pomocou PageRank
 | |
| - Doplniť pagerank do indexu z BP
 | |
| - zakomponovať Pagerank do vyhľadávania a zistiť ako to ovplyvnilo P-R
 | |
| - Implementovať podobným spôsobom minimálne jednu ďalšiu metriku zo študijnej literatúry
 | |
| - Zásobník úloh ostáva ak bude čas. Napr. vyrobiť demo aj z BP.
 | |
| 
 | |
| Virtuálne stretnutie 18.12:2020:
 | |
| 
 | |
| Žiaden pokrok.
 | |
| 
 | |
| Virtuálne stretnutie 3.1ľ:2020:
 | |
| 
 | |
| Riešenie technických problémov ako implementovať PageRank.
 | |
| 
 | |
| Virtuálne stretnutie 13.11:2020:
 | |
| 
 | |
| Stav: 
 | |
| 
 | |
| - Vyriešené technické problémy s cassandrou. Vieme indexovať z Cassandra do ES.
 | |
| 
 | |
| Úlohy na ďalšie stretnutie:
 | |
| 
 | |
| - urobte návrh metódy PageRank.
 | |
| - priprave Vaše kódy do formy web aplikácie a dajte ich do repozitára.
 | |
|     - backend s REST API.
 | |
|     - frontend s Javascriptom.
 | |
|     - skúste pripraviť Dockerfile s Vašou aplikáciou.
 | |
| 
 | |
| Virtuálne stretnutie 6.11:2020:
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Riešenie problémov s cassandrou a javascriptom. Ako funguje funkcia then? 
 | |
| 
 | |
| Úlohy na ďalšie stretnutie:
 | |
| 
 | |
| - vypracujte funkciu na indexovanie. Vstup je dokument (objekt s textom a metainformáciami). Fukcia zaindexuje dokument do ES.
 | |
| - Naštudujte si ako funguje funkcia then a čo je to callback.
 | |
| - Naštudujte si ako sa používa Promise.
 | |
| - Naštudujte si ako funguje async - await. 
 | |
| - https://developer.mozilla.org/en-US/docs/Learn/JavaScript/Asynchronous/
 | |
| 
 | |
| 
 | |
| 
 | |
| Virtuálne stretnutie 23.10:2020:
 | |
| 
 | |
| Stav:
 | |
| - Riešenie problémov s cassandrou. Ako vybrať dáta podľa primárneho kľúča.
 | |
| 
 | |
| Do ďalšiehio stretnutia:
 | |
| 
 | |
| - pokračovať v otvorených úlohách.
 | |
| - urobte funkciu pre indexovanie jedného dokumentu.
 | |
| 
 | |
| Virtuálne stretnutie 16.10.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Riešenie problémov s pripojením na Cassandru.
 | |
| - Riešenie spôsobu výberu dát z databázy a indexovanie.
 | |
| 
 | |
| Do ďalšieho stretnutia:
 | |
| 
 | |
| - Pokračovať v otvorených úlohách z minulého stretnutia.
 | |
| 
 | |
| Virtuálne stretnutie 2.10.2020
 | |
| 
 | |
| Urobené:
 | |
| 
 | |
| - Výber a indexovanie dát z Cassandry
 | |
| 
 | |
| Do ďalšieho stretnutia:
 | |
| 
 | |
| - pracovať ďalej na indexovaní, použite Cassandra Javascript API
 | |
| - urobte návrh metódy PageRank
 | |
| - urobte si GIT repozitár nazvite ho dp2021 a dajte tam zdrojové kódy
 | |
| - priprave Vaše kódy do formy web aplikácie
 | |
|     - backend s REST API
 | |
|     - frontend s Javascriptom
 | |
|     - skúste pripraviť Dockerfile s Vašou aplikáciou
 | |
| 
 | |
| 
 | |
| 
 | |
| 
 | |
| ## Diplomový projekt 2020
 | |
| 
 | |
| 
 | |
| Virtuálne stretnutie 23.6.2020:
 | |
| 
 | |
| Hotové:
 | |
| 
 | |
| - funguje databáza Cassandra
 | |
| - funguje web rozhranie
 | |
| - funguje indexovanie zo súboru.
 | |
| 
 | |
| Výsledky sú v [ZIP súbore](./dp2021/zdrojove_subory/skweb.zip)
 | |
| 
 | |
| Treba dokončiť:
 | |
| 
 | |
| - Indexovanie z Cassandra do ES
 | |
| 
 | |
| Virtuálne stretnutie 14.5.2020:
 | |
| 
 | |
| Nové úlohy:
 | |
| 
 | |
| - Rozbehať Cassandra DB a agenta pre získavanie textu
 | |
| - Indexovať dokumnety z Cassandra DB do Elasticsearch
 | |
| - Pokračovať na práci na Web rozhraní
 | |
| - Doriešiť obnovenie slovenskej konfigurácie
 | |
| 
 | |
| Urobené:
 | |
| 
 | |
| - rozrobené web rozhranie
 | |
| - rozrobené indexovanie do ElasticSearch
 | |
| 
 | |
| Revízia 13.5.2020:
 | |
| 
 | |
| - Potrebné skompletizovať zdrojové kódy.
 | |
| - Nová verzia agenta pre získavanie textu: https://git.kemt.fei.tuke.sk/dano/websucker-pip
 | |
| 
 | |
| Revízia 9.4.2020:
 | |
| 
 | |
| *Návod na prácu s Elasticsearch* : [Návod](./dp2021/navod.md) 
 | |
| 
 | |
| *Návod na spustenie web aplikácie* : [Návod](./dp2021/web_api.md) 
 | |
| 
 | |
| *Záznam o doterajšom pokroku*  : [Pokrok](./dp2021/pokrok.md) 
 | |
| 
 | |
| Úloha: 
 | |
| 
 | |
| - Nainštalujte si a oboznámte sa s [agentom pre získavanie textu](https://git.kemt.fei.tuke.sk/dano/websucker). 
 | |
| - Zistite, aká je štruktúra dokumentov v indexoch.
 | |
| - vytvorte návrh a prototyp webovej aplikácie ktorá bude slúžiť ako rozhranie k vyhľadávaciemu indexu.
 | |
| 
 | |
| 
 | |
| Stretnutie 20.2.2020
 | |
| 
 | |
| Úlohy na tento semester:
 | |
| 
 | |
| - Nainštalovať Elasticsearch a zindexovať veľkú databázu dát z webu.
 | |
| - Nájsť spôsob ako vytvoriť verejne prístupné demo.
 | |
| 
 | |
| Do ďalšieho stretnutia:
 | |
| 
 | |
| - Vytvorte git repozitár a dajte tam výsledky z bakalárskej práce. Vytvorte k tomu návod.
 | |
| - Porozmýšľajte nad HTML používateľským rozhraním.
 | |
| 
 | |
| 
 | |
| ## Tímový projekt 2019
 | |
| 
 | |
| *Písomná práca* : [Rešerš](./timovy_projekt) 
 | |
| 
 | |
| 
 | |
| *Úlohy tímového projektu*: 
 | |
| 
 | |
| - Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
 | |
| - Sústreďte sa najprv na algoritmus PageRank a BM25
 | |
| - citujte 10 najvýznamnejších bibliografických zdrojov
 | |
| 
 | |
| 
 | |
| 
 | |
| ### Poznámky k vypracovaniu DP
 | |
| 
 | |
| - možnosť pracovať s veľkými dátami Elasticsearch, je nutné sprevádzkovať ES Cluster.
 | |
| - možnosť vypracovať jednoduché demo web vyhľadávača
 | |
| - inšpirácia Agent pre získavanie textu "dano/websucker"
 | |
| - Pozrite si Python knižnice pre elasticsearch, a information retrieval (pagerank a pod.)
 | |
| 
 | |
| 
 | |
| 
 | |
| ## Bakalárska práca 2019
 | |
| 
 | |
| *Meno vedúceho*: Ing. Daniel Hládek, PhD.
 | |
| 
 | |
| *Názov bakalárskej práce*: Vyhľadávač na slovenskom internete
 | |
| 
 | |
| *Text bakalárskej práce*: (https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1)
 | |
| 
 | |
| *Zadanie bakalárskej práce*: 
 | |
| 
 | |
| 1. Zostaviť prehľad aktuálnych metód vyhľadávania v textových dátach a metód vyhodnotenia presnosti. 
 | |
| 2. Navrhnúť a opísať vlastnú metódu indexovania a vyhľadávania v slovenskom texte. 
 | |
| 3. Navrhnúť a vykonať sadu experimentov pomocou ktorých sa vyhodnotí navrhnutá metóda indexovania a vyhľadávania.
 | |
| 4. Na základe experimentov navrhnúť vylepšenia navrhnutej metódy vyhľadávania.
 | |
| 
 | |
| 
 | |
| [Bakalárska práca 2018 - Vyhľadávač na slovenskom internete](https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1)
 | |
| 
 | |
| 
 | |
| 
 | |
| 
 |