dmytro_ushatenko/pages/students/2016/jan_holpREADME.md

1.1 KiB

Ján Holp

Bakalárska práca 2018 - Vyhľadávač na slovenskom internete

Tímový projekt 2019

  • Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
  • Sústreďte sa najprv na algoritmus PageRank a BM25
  • citujte 10 najvýznamnejších bibliografických zdrojov

Návrh na zadanie DP

  • Vypracujte prehľad metód ohodnotenia dokumentov v systémoch získavania informácií
  • Implementujte jednoduchý systém pre získavanie informácií v slovenskom jazyku, v ktorom využijete ohodnotenie dokumentov.
  • Navrhnite a vypracujte experimenty, v ktorých vyhodnotíte vybrané metódy odhodnotenia dokumentov
  • Navrhnite možné zlepšenia presnosti vyhľadávania

Poznámky k vypracovaniu DP

  • možnosť pracovať s veľkými dátami Elasticsearch, je nutné sprevádzkovať ES Cluster.
  • možnosť vypracovať jednoduché demo web vyhľadávača
  • inšpirácia Agent pre získavanie textu "dano/websucker"
  • Pozrite si Python knižnice pre elasticsearch, a information retrieval (pagerank a pod.)