2019-12-12 08:55:25 +00:00
|
|
|
# Ján Holp
|
|
|
|
|
2020-01-23 08:00:27 +00:00
|
|
|
*Rok začiatku štúdia*: 2016
|
2019-12-12 08:55:25 +00:00
|
|
|
|
|
|
|
|
2020-01-23 08:00:27 +00:00
|
|
|
## Diplomová práca 2021
|
2019-12-12 08:55:25 +00:00
|
|
|
|
2020-02-07 10:03:35 +00:00
|
|
|
*Názov diplomovej práce*: Systém získavania informácií v slovenskom jazyku.
|
2019-12-12 08:55:25 +00:00
|
|
|
|
2020-01-29 17:10:19 +00:00
|
|
|
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
|
2020-01-23 08:00:27 +00:00
|
|
|
|
|
|
|
*Zadanie diplomovej práce*:
|
2019-12-12 08:55:25 +00:00
|
|
|
|
2020-02-07 10:03:35 +00:00
|
|
|
1. Vypracujte prehľad metód ohodnotenia dokumentov v systémoch získavania informácií.
|
|
|
|
2. Implementujte jednoduchý systém pre získavanie informácií v slovenskom jazyku, v ktorom využijete ohodnotenie dokumentov.
|
|
|
|
3. Navrhnite a vypracujte experimenty, v ktorých vyhodnotíte vybrané metódy odhodnotenia dokumentov.
|
|
|
|
4. Navrhnite možné zlepšenia presnosti vyhľadávania.
|
2020-01-23 08:00:27 +00:00
|
|
|
|
2020-02-20 12:06:06 +00:00
|
|
|
## Diplomový projekt 2020
|
|
|
|
|
|
|
|
Stretnutie 20.2.2020
|
|
|
|
|
|
|
|
Úlohy na tento semester:
|
|
|
|
|
|
|
|
- Nainštalovať Elasticsearch a zindexovať veľkú databázu dát z webu.
|
|
|
|
- Nájsť spôsob ako vytvoriť verejne prístupné demo.
|
|
|
|
|
|
|
|
Do ďalšieho stretnutia:
|
|
|
|
|
|
|
|
- Vytvorte git repozitár a dajte tam výsledky z bakalárskej práce. Vytvorte k tomu návod.
|
|
|
|
- Porozmýšľajte nad HTML používateľským rozhraním.
|
|
|
|
|
2020-04-08 15:49:51 +00:00
|
|
|
*Návod na prácu s Elasticsearch* : [Návod](./dp2021)
|
2020-04-08 15:56:08 +00:00
|
|
|
|
|
|
|
*Záznam o pokroku* : [Pokrok](./dp2021/pokrok)
|
2020-04-08 15:48:50 +00:00
|
|
|
|
2020-01-23 08:00:27 +00:00
|
|
|
|
|
|
|
## Tímový projekt 2019
|
|
|
|
|
2020-01-29 17:10:19 +00:00
|
|
|
*Písomná práca* : [Rešerš](./timovy_projekt)
|
2020-01-23 08:00:27 +00:00
|
|
|
|
|
|
|
|
|
|
|
*Úlohy tímového projektu*:
|
|
|
|
|
|
|
|
- Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
|
|
|
|
- Sústreďte sa najprv na algoritmus PageRank a BM25
|
|
|
|
- citujte 10 najvýznamnejších bibliografických zdrojov
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### Poznámky k vypracovaniu DP
|
2019-12-12 08:55:25 +00:00
|
|
|
|
|
|
|
- možnosť pracovať s veľkými dátami Elasticsearch, je nutné sprevádzkovať ES Cluster.
|
|
|
|
- možnosť vypracovať jednoduché demo web vyhľadávača
|
|
|
|
- inšpirácia Agent pre získavanie textu "dano/websucker"
|
|
|
|
- Pozrite si Python knižnice pre elasticsearch, a information retrieval (pagerank a pod.)
|
|
|
|
|
2020-01-23 08:00:27 +00:00
|
|
|
|
|
|
|
|
|
|
|
## Bakalárska práca 2019
|
|
|
|
|
2020-01-29 17:10:19 +00:00
|
|
|
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
|
2020-01-23 08:00:27 +00:00
|
|
|
|
2020-01-29 17:10:19 +00:00
|
|
|
*Názov bakalárskej práce*: Vyhľadávač na slovenskom internete
|
2020-01-23 08:00:27 +00:00
|
|
|
|
2020-01-29 17:10:19 +00:00
|
|
|
*Text bakalárskej práce*: (https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1)
|
2020-01-23 08:00:27 +00:00
|
|
|
|
2020-01-29 17:10:19 +00:00
|
|
|
*Zadanie bakalárskej práce*:
|
2020-02-20 12:06:06 +00:00
|
|
|
|
2020-01-29 17:10:19 +00:00
|
|
|
1. Zostaviť prehľad aktuálnych metód vyhľadávania v textových dátach a metód vyhodnotenia presnosti.
|
|
|
|
2. Navrhnúť a opísať vlastnú metódu indexovania a vyhľadávania v slovenskom texte.
|
|
|
|
3. Navrhnúť a vykonať sadu experimentov pomocou ktorých sa vyhodnotí navrhnutá metóda indexovania a vyhľadávania.
|
|
|
|
4. Na základe experimentov navrhnúť vylepšenia navrhnutej metódy vyhľadávania.
|
2020-01-23 08:00:27 +00:00
|
|
|
|
|
|
|
|
|
|
|
[Bakalárska práca 2018 - Vyhľadávač na slovenskom internete](https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|