forked from KEMT/zpwiki
.. | ||
README.md |
Ján Holp
Bakalárska práca 2018 - Vyhľadávač na slovenskom internete
Tímový projekt 2019
- Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
- Sústreďte sa najprv na algoritmus PageRank a BM25
- citujte 10 najvýznamnejších bibliografických zdrojov
Návrh na zadanie DP
- Vypracujte prehľad metód ohodnotenia dokumentov v systémoch získavania informácií
- Implementujte jednoduchý systém pre získavanie informácií v slovenskom jazyku, v ktorom využijete ohodnotenie dokumentov.
- Navrhnite a vypracujte experimenty, v ktorých vyhodnotíte vybrané metódy odhodnotenia dokumentov
- Navrhnite možné zlepšenia presnosti vyhľadávania
Poznámky k vypracovaniu DP
- možnosť pracovať s veľkými dátami Elasticsearch, je nutné sprevádzkovať ES Cluster.
- možnosť vypracovať jednoduché demo web vyhľadávača
- inšpirácia Agent pre získavanie textu "dano/websucker"
- Pozrite si Python knižnice pre elasticsearch, a information retrieval (pagerank a pod.)