diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index ad297fe642..c0c8fa1d5c 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -17,6 +17,15 @@ Téma: Vyhľadávanie na slovenskej Wikipédii - Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie. - alebo Implementujte systém na kategorizáciu slovenských novinových článkov. +Názov: + +Automatická kategorizácia slovenského textu + +1. Vypracujte prehľad najnovších metód kategorizácie textu pomocou neurónových sietí aj pomocou štatistických metód. +2. Vyberte a pripravte vhodnú dátovú množinu pre otestovanie kategorizácie. +3. Vyberte vhodnú metódu kategorizácie a pripravte experimenty pri ktorom ju vyhodnotíte. +4. Vyhodnotte experimenty a identifikujte slabé miesta zvoleného prístupu. + Práca súvisí s: - [DP Michal Stromko](/students/2019/michal_stromko) @@ -39,7 +48,6 @@ Zásobník úloh: - Spýtajte sa vedúceho na skripty ku spracovaniu dumpu wikipédie. - Stretnutie 30.9.2022: Stav: @@ -51,7 +59,7 @@ Stav: - [x] Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany. - [x] Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku. - [-] Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany. -- [x] Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. +- [x] Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. - [ ] Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie.