--- title: Matúš Suchanič published: true taxonomy: category: [vp2022,bp2023] tag: [ir] author: Daniel Hladek --- rok začiatku štúdia: 2020 # Bakalárska práca 2023 Téma: Vyhľadávanie na slovenskej Wikipédii Úloha: - Implementujte systém na kategorizáciu slovenských novinových článkov. Systém by mal kategorizovať ľubovoľný článok do wiki kategórií. - Vytvorte dátovú množinu pre vyhodnotenie kategorizácie na základe wiki kategórií. Názov: Automatická kategorizácia slovenského textu 1. Vypracujte prehľad najnovších metód kategorizácie textu pomocou neurónových sietí aj pomocou štatistických metód. 2. Vyberte a pripravte vhodnú dátovú množinu pre otestovanie kategorizácie. 3. Vyberte vhodnú metódu kategorizácie a pripravte experimenty pri ktorom ju vyhodnotíte. 4. Vyhodnotte experimenty a identifikujte slabé miesta zvoleného prístupu. Práca súvisí s: - [DP Michal Stromko](/students/2019/michal_stromko) - [BP Matej Kobyľan](/students/2020/matej_kobylan) Stretnutie 28.10.2022 Stav: - Preštudované články o text categorization, BERT, KNN. Napísaný krátky report. Úlohy: - Pokračujte v štúdiu odborných článkov o kategorizácii textu. Použite Scholar. Robte si poznámky, poznačte si bibl. odkazy. Min. 5 nových článkov. Toto pôjde do BP. - Pokračujte v experimente s HF transformers a kategorizáciou. Zásobník úloh: - Vytvorte skript, ktorý spracuje dump slovenskej wikipédie a zistí, ktorý článok patrí do ktorých kategórií. Cieľ je spraviť systém ktorý zaradí neznámy článok do wikipédia kategórií. - Spýtajte sa vedúceho na skripty ku spracovaniu dumpu wikipédie. Stretnutie 30.9.2022: Stav: - Je nainštalovaný Anaconda a HF transformers. Úlohy: - [x] Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany. - [x] Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku. - [-] Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany. - [x] Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. - [ ] Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie. Zásobník úloh: - [ ] Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze. # Vedecký projekt 2022 Extrakcia informácií z webových stránok Finálny cieľ: - Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník) - Naučte sa niečo o spracovaní prirodzeného jazyka Výstupy: - Report na cca 4 strany - ako si nainštalovať anacondu, niečo o knižnici HuggingFace Transformers - Skript na parsovanie dvoch stránok Stretnutie 3.6. Stav: - Odovzdaná písomná správa nie je uspokojivá. Úlohy: - Nainštalujte si Hugging Face Transformers - Prejdite si tento tutoriál, https://huggingface.co/docs/transformers/tasks/sequence_classification. Po slovensky zapíšte vlastnými slovami čo ste urobili a čo ste zistili. Zapíšte každý krok. - Vlastnými slovami zapíšte, čo všetko bude potrebné urobiť, aby sme vedeli klasifikovať slovenské texty. - Vytvorte si GIT repozitár a dajte do neho vytvorené skripty na parsovanie stránok. Stretnutie 18.3.2022 Úlohy: - Nainštalovať si systém Anaconda - Napíšte návod ako nainštalovať a používať systém Anacona - Nainštalovať si knižnicu BeautifulSoup4, prejsť si tutoriál - napíšte krátky úvod do knižnice Huggingface Transformers - Prečítajte si články o hlbokých neurónových sieťach a spracovaní prirodzeného jazyka