From d5efd6b9143aa1867f3a5061157140c71f7d8183 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 9 Oct 2025 09:39:11 +0200 Subject: [PATCH] zz --- pages/students/2021/matej_novotny/README.md | 28 +++++++++++++++++++++ 1 file changed, 28 insertions(+) diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index b75cbec1..bcae2a7c 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -21,6 +21,34 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu. 2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana. 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model. +Stretnutie 9.10.2025 + +Stav: + +- HF transformers tutoriály na tokenizáciu. +- spísané poznámky - LLM a tokenizácia (2 PDF z google scholar) +- stiahnuté nejaké články v wikipédie a vyskúšaný klasifikačný skript. +- vytvorený prístup na novotny@titan.kemt.fei.tuke.sk . Používajte adresár /mnt/sharedhome/novotny + +Úlohy: + +- Oboznámte sa so skriptami a dátami v /mnt/sharedhome/hladek/bert-train corpus3, slavic1 +- Vytvorte skript pre rozpoznávanie nenávisti v texte. Cieľom je vytvoriť korpus bez "nenávistného" textu. Zistite, koľko nenávistných textov je vo webových korpusoch. +- Ak je to potrebné, natrénujte model pre ropoznávanie slovenského nenávistného textu. Použite skript pre klasifikáciu a dáta z https://huggingface.co/TUKE-KEMT - senti-sk, toxic-sk a `hate_speech_slovak`. +- Píšte si poznámku. + +Zásobník úloh: + +- Oboznámte sa s algoritmami v https://www.nltk.org/book/ch06.html +- Zistite, či sa nená nenávisť klasifikovať aj nejakou jednoduchšou metódou (bayes, ME) a porovnajte. +- Vytvorte model pre klasifikáciu druhu alebo témy textu. + +Úlohy: + +- Pošlite mi poznámky z DP v 6. týždni. +- Kódy z DP dávajte na katedrový GIT. +- Naučte sa pracovať s tmux alebo screen + Stretnutie 4.6.2025