diff --git a/pages/students/2021/vladimir_ferko/README.md b/pages/students/2021/vladimir_ferko/README.md index be49551995..9f8765c3a3 100644 --- a/pages/students/2021/vladimir_ferko/README.md +++ b/pages/students/2021/vladimir_ferko/README.md @@ -35,6 +35,27 @@ Predbežné zadanie - úlohy na semester: - Možno anotovať nenávistnú reč. Toto konzultovať s p. Sokolovou. - Z nazbieraných dát zostavte a vyhodnoťte model +Stretnutie 23.1.2024 + +Stav: + +- Práca iba na textovej časti. + +Úlohy: + +- Pripravte dátovú množinu na anotovanie. Vyberte také dáta, ktoré obsahujú málo spamu a primerané množstvo "hatespeech". Môžete "nascrapovať" nové zdroje, také ktoré sú vhodnejšie. +- Pripravte aplikáciu na anotovanie a skúste anotovať pár jednotiek. Zaznamenajte chyby anotačnej aplikácie. +- Ak bude aplikácia v poriadku, anotujte viac. +- Pokračujte v práci na textovej časti podľa inštrukcií nižšie. +- Pokračujte v otvorených úlohách. + + +Zásobník úloh: + +- Prečistenie databázy na výskyt spamu: Pomocou modelu slovak-bert-mnlr identifikujte sémanticky podobné dokumenty. Ak má jeden dokument príliš veľa podobných, označte ho ako spam. Konzultovať s Stromko alebo Sopkovič. Asi bude treba použiť vektorový index. +- Z anotovaných dát natrénujte model. + + Stretnutie 27.10.2023 Stav: