From 9a6c81083e80f67a32cdfa8a7383ffe6a97ea736 Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 23 Jan 2024 13:54:40 +0000 Subject: [PATCH] Update 'pages/students/2021/vladimir_ferko/README.md' --- pages/students/2021/vladimir_ferko/README.md | 21 ++++++++++++++++++++ 1 file changed, 21 insertions(+) diff --git a/pages/students/2021/vladimir_ferko/README.md b/pages/students/2021/vladimir_ferko/README.md index be49551995..9f8765c3a3 100644 --- a/pages/students/2021/vladimir_ferko/README.md +++ b/pages/students/2021/vladimir_ferko/README.md @@ -35,6 +35,27 @@ Predbežné zadanie - úlohy na semester: - Možno anotovať nenávistnú reč. Toto konzultovať s p. Sokolovou. - Z nazbieraných dát zostavte a vyhodnoťte model +Stretnutie 23.1.2024 + +Stav: + +- Práca iba na textovej časti. + +Úlohy: + +- Pripravte dátovú množinu na anotovanie. Vyberte také dáta, ktoré obsahujú málo spamu a primerané množstvo "hatespeech". Môžete "nascrapovať" nové zdroje, také ktoré sú vhodnejšie. +- Pripravte aplikáciu na anotovanie a skúste anotovať pár jednotiek. Zaznamenajte chyby anotačnej aplikácie. +- Ak bude aplikácia v poriadku, anotujte viac. +- Pokračujte v práci na textovej časti podľa inštrukcií nižšie. +- Pokračujte v otvorených úlohách. + + +Zásobník úloh: + +- Prečistenie databázy na výskyt spamu: Pomocou modelu slovak-bert-mnlr identifikujte sémanticky podobné dokumenty. Ak má jeden dokument príliš veľa podobných, označte ho ako spam. Konzultovať s Stromko alebo Sopkovič. Asi bude treba použiť vektorový index. +- Z anotovaných dát natrénujte model. + + Stretnutie 27.10.2023 Stav: