246 lines
7.1 KiB
Markdown
246 lines
7.1 KiB
Markdown
---
|
|
title: Ján Holp
|
|
published: true
|
|
taxonomy:
|
|
category: [dp2021,bp2019]
|
|
tag: [ir,nlp,pagerank]
|
|
author: Daniel Hladek
|
|
---
|
|
# Ján Holp
|
|
|
|
*Rok začiatku štúdia*: 2016
|
|
|
|
## Diplomová práca 2021
|
|
|
|
*Názov diplomovej práce*: Systém získavania informácií v slovenskom jazyku.
|
|
|
|
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
|
|
|
|
*Zadanie diplomovej práce*:
|
|
|
|
1. Vypracujte prehľad metód ohodnotenia dokumentov v systémoch získavania informácií.
|
|
2. Implementujte jednoduchý systém pre získavanie informácií v slovenskom jazyku, v ktorom využijete ohodnotenie dokumentov.
|
|
3. Navrhnite a vypracujte experimenty, v ktorých vyhodnotíte vybrané metódy odhodnotenia dokumentov.
|
|
4. Navrhnite možné zlepšenia presnosti vyhľadávania.
|
|
|
|
Stretnutie 12.3.
|
|
|
|
Stav:
|
|
|
|
- Implementovaný PageRank, indexovanie webových stránok
|
|
|
|
Úlohy:
|
|
|
|
- Pripravte experiment s PageRank, databáza SCNC2, vyhodnotenie pomocou P-R-F1
|
|
- Pozrite do knihy na metódy vyhodnotenta s PageRank
|
|
- Pozrite do knihy a skúste pripraviť inú metriku.
|
|
- Popri tom priprave demonštráciu s webovým rozhraním.
|
|
|
|
## Diplomový projekt 2 2020
|
|
|
|
Zásobník úloh:
|
|
|
|
- Urobiť verejné demo - nasadenie pomocou systému Docker. Využiť veľké slovenské dáta z internetu.
|
|
- zlepšenie Web UI
|
|
- vytvoriť REST api pre indexovanie dokumentu.
|
|
- V indexe prideliť ohodnotenie každému dokumentu podľa viacerých metód, napr. PageRank
|
|
- Využiť vyhodnotenie pri vyhľadávaní
|
|
|
|
- **Použiť overovaciu databázu SCNC na vyhodnotenie každej metódy**
|
|
- **Do konca zimného semestra vytvoriť "Mini Diplomovú prácu cca 8 strán s experimentami" vo forme článku**
|
|
|
|
Virtuálne stretnutie 7.1.2020:
|
|
|
|
Dohoda na zmene smerovania práce. Chceme:
|
|
- Rozšíriť BP o vyhľadávanie pomocou PageRank
|
|
- Doplniť pagerank do indexu z BP
|
|
- zakomponovať Pagerank do vyhľadávania a zistiť ako to ovplyvnilo P-R
|
|
- Implementovať podobným spôsobom minimálne jednu ďalšiu metriku zo študijnej literatúry
|
|
- Zásobník úloh ostáva ak bude čas. Napr. vyrobiť demo aj z BP.
|
|
|
|
Virtuálne stretnutie 18.12:2020:
|
|
|
|
Žiaden pokrok.
|
|
|
|
Virtuálne stretnutie 3.1ľ:2020:
|
|
|
|
Riešenie technických problémov ako implementovať PageRank.
|
|
|
|
Virtuálne stretnutie 13.11:2020:
|
|
|
|
Stav:
|
|
|
|
- Vyriešené technické problémy s cassandrou. Vieme indexovať z Cassandra do ES.
|
|
|
|
Úlohy na ďalšie stretnutie:
|
|
|
|
- urobte návrh metódy PageRank.
|
|
- priprave Vaše kódy do formy web aplikácie a dajte ich do repozitára.
|
|
- backend s REST API.
|
|
- frontend s Javascriptom.
|
|
- skúste pripraviť Dockerfile s Vašou aplikáciou.
|
|
|
|
Virtuálne stretnutie 6.11:2020:
|
|
|
|
Stav:
|
|
|
|
- Riešenie problémov s cassandrou a javascriptom. Ako funguje funkcia then?
|
|
|
|
Úlohy na ďalšie stretnutie:
|
|
|
|
- vypracujte funkciu na indexovanie. Vstup je dokument (objekt s textom a metainformáciami). Fukcia zaindexuje dokument do ES.
|
|
- Naštudujte si ako funguje funkcia then a čo je to callback.
|
|
- Naštudujte si ako sa používa Promise.
|
|
- Naštudujte si ako funguje async - await.
|
|
- https://developer.mozilla.org/en-US/docs/Learn/JavaScript/Asynchronous/
|
|
|
|
|
|
|
|
Virtuálne stretnutie 23.10:2020:
|
|
|
|
Stav:
|
|
- Riešenie problémov s cassandrou. Ako vybrať dáta podľa primárneho kľúča.
|
|
|
|
Do ďalšiehio stretnutia:
|
|
|
|
- pokračovať v otvorených úlohách.
|
|
- urobte funkciu pre indexovanie jedného dokumentu.
|
|
|
|
Virtuálne stretnutie 16.10.
|
|
|
|
Stav:
|
|
|
|
- Riešenie problémov s pripojením na Cassandru.
|
|
- Riešenie spôsobu výberu dát z databázy a indexovanie.
|
|
|
|
Do ďalšieho stretnutia:
|
|
|
|
- Pokračovať v otvorených úlohách z minulého stretnutia.
|
|
|
|
Virtuálne stretnutie 2.10.2020
|
|
|
|
Urobené:
|
|
|
|
- Výber a indexovanie dát z Cassandry
|
|
|
|
Do ďalšieho stretnutia:
|
|
|
|
- pracovať ďalej na indexovaní, použite Cassandra Javascript API
|
|
- urobte návrh metódy PageRank
|
|
- urobte si GIT repozitár nazvite ho dp2021 a dajte tam zdrojové kódy
|
|
- priprave Vaše kódy do formy web aplikácie
|
|
- backend s REST API
|
|
- frontend s Javascriptom
|
|
- skúste pripraviť Dockerfile s Vašou aplikáciou
|
|
|
|
|
|
|
|
|
|
## Diplomový projekt 2020
|
|
|
|
|
|
Virtuálne stretnutie 23.6.2020:
|
|
|
|
Hotové:
|
|
|
|
- funguje databáza Cassandra
|
|
- funguje web rozhranie
|
|
- funguje indexovanie zo súboru.
|
|
|
|
Výsledky sú v [ZIP súbore](./dp2021/zdrojove_subory/skweb.zip)
|
|
|
|
Treba dokončiť:
|
|
|
|
- Indexovanie z Cassandra do ES
|
|
|
|
Virtuálne stretnutie 14.5.2020:
|
|
|
|
Nové úlohy:
|
|
|
|
- Rozbehať Cassandra DB a agenta pre získavanie textu
|
|
- Indexovať dokumnety z Cassandra DB do Elasticsearch
|
|
- Pokračovať na práci na Web rozhraní
|
|
- Doriešiť obnovenie slovenskej konfigurácie
|
|
|
|
Urobené:
|
|
|
|
- rozrobené web rozhranie
|
|
- rozrobené indexovanie do ElasticSearch
|
|
|
|
Revízia 13.5.2020:
|
|
|
|
- Potrebné skompletizovať zdrojové kódy.
|
|
- Nová verzia agenta pre získavanie textu: https://git.kemt.fei.tuke.sk/dano/websucker-pip
|
|
|
|
Revízia 9.4.2020:
|
|
|
|
*Návod na prácu s Elasticsearch* : [Návod](./dp2021/navod.md)
|
|
|
|
*Návod na spustenie web aplikácie* : [Návod](./dp2021/web_api.md)
|
|
|
|
*Záznam o doterajšom pokroku* : [Pokrok](./dp2021/pokrok.md)
|
|
|
|
Úloha:
|
|
|
|
- Nainštalujte si a oboznámte sa s [agentom pre získavanie textu](https://git.kemt.fei.tuke.sk/dano/websucker).
|
|
- Zistite, aká je štruktúra dokumentov v indexoch.
|
|
- vytvorte návrh a prototyp webovej aplikácie ktorá bude slúžiť ako rozhranie k vyhľadávaciemu indexu.
|
|
|
|
|
|
Stretnutie 20.2.2020
|
|
|
|
Úlohy na tento semester:
|
|
|
|
- Nainštalovať Elasticsearch a zindexovať veľkú databázu dát z webu.
|
|
- Nájsť spôsob ako vytvoriť verejne prístupné demo.
|
|
|
|
Do ďalšieho stretnutia:
|
|
|
|
- Vytvorte git repozitár a dajte tam výsledky z bakalárskej práce. Vytvorte k tomu návod.
|
|
- Porozmýšľajte nad HTML používateľským rozhraním.
|
|
|
|
|
|
## Tímový projekt 2019
|
|
|
|
*Písomná práca* : [Rešerš](./timovy_projekt)
|
|
|
|
|
|
*Úlohy tímového projektu*:
|
|
|
|
- Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
|
|
- Sústreďte sa najprv na algoritmus PageRank a BM25
|
|
- citujte 10 najvýznamnejších bibliografických zdrojov
|
|
|
|
|
|
|
|
### Poznámky k vypracovaniu DP
|
|
|
|
- možnosť pracovať s veľkými dátami Elasticsearch, je nutné sprevádzkovať ES Cluster.
|
|
- možnosť vypracovať jednoduché demo web vyhľadávača
|
|
- inšpirácia Agent pre získavanie textu "dano/websucker"
|
|
- Pozrite si Python knižnice pre elasticsearch, a information retrieval (pagerank a pod.)
|
|
|
|
|
|
|
|
## Bakalárska práca 2019
|
|
|
|
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
|
|
|
|
*Názov bakalárskej práce*: Vyhľadávač na slovenskom internete
|
|
|
|
*Text bakalárskej práce*: (https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1)
|
|
|
|
*Zadanie bakalárskej práce*:
|
|
|
|
1. Zostaviť prehľad aktuálnych metód vyhľadávania v textových dátach a metód vyhodnotenia presnosti.
|
|
2. Navrhnúť a opísať vlastnú metódu indexovania a vyhľadávania v slovenskom texte.
|
|
3. Navrhnúť a vykonať sadu experimentov pomocou ktorých sa vyhodnotí navrhnutá metóda indexovania a vyhľadávania.
|
|
4. Na základe experimentov navrhnúť vylepšenia navrhnutej metódy vyhľadávania.
|
|
|
|
|
|
[Bakalárska práca 2018 - Vyhľadávač na slovenskom internete](https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1)
|
|
|
|
|
|
|
|
|