From 5df5b672c8dfee1af56779de55866c42fac872e2 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Oct 2022 11:26:47 +0000 Subject: [PATCH] Update 'pages/students/2020/matus_suchanic/README.md' --- pages/students/2020/matus_suchanic/README.md | 30 ++++++++++++++++---- 1 file changed, 24 insertions(+), 6 deletions(-) diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index 151995ee..ad297fe6 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -22,6 +22,24 @@ Práca súvisí s: - [DP Michal Stromko](/students/2019/michal_stromko) - [BP Matej Kobyľan](/students/2020/matej_kobylan) +Stretnutie 28.10.2022 + +Stav: + +- Preštudované články o text categorization, BERT, KNN. Napísaný krátky report. + +Úlohy: + +- Pokračujte v štúdiu odborných článkov o kategorizácii textu. Použite Scholar. Robte si poznámky, poznačte si bibl. odkazy. Min. 5 nových článkov. Toto pôjde do BP. +- Pokračujte v experimente s HF transformers a kategorizáciou. + +Zásobník úloh: + +- Vytvorte skript, ktorý spracuje dump slovenskej wikipédie a zistí, ktorý článok patrí do ktorých kategórií. Cieľ je spraviť systém ktorý zaradí neznámy článok do wikipédia kategórií. +- Spýtajte sa vedúceho na skripty ku spracovaniu dumpu wikipédie. + + + Stretnutie 30.9.2022: Stav: @@ -30,17 +48,17 @@ Stav: Úlohy: -- Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany. -- Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku. -- Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany. -- Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. +- [x] Prečítajte si BP Michal Stromko a DP Ján Holp. Napíšte z toho poznámky na pol strany. +- [x] Zistite, čo to je model BERT a ako sa s sním pracuje. Napíšte o tom poznámku. +- [-] Vypracujte prehľad novej odbornej literatúry na tému Text Categorization. Zistite aké štatistické a neurónové metódy sa používajú. Ako základ Vám poslúži článok nižšie. Prehľad by mal mať aspoň 2 strany. +- [x] Prečítajte si článok "Comparison of Statistical Algorithms and Deep Learning for Slovak Document Classification" https://ieeexplore.ieee.org/abstract/document/9869155 dostupný z TUKE siete. Napíšte na pol strany čo ste sa dozvedeli. -- Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie. +- [ ] Zopakujte experiment s klasifikáciou slovenských novinových článkov. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite knižnicu HF transformers, Skripty Vám dodá vedúci. Použite "Slovak Categorized News Corpus" na trénovanie. Zásobník úloh: -- Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze. +- [ ] Pripravte skript, ktorý bude vedieť klasifikovať neznáme články uložené v databáze. # Vedecký projekt 2022