zz

2025-10-09 09:39:11 +02:00 · 2025-10-09 09:39:11 +02:00 · d5efd6b914
commit d5efd6b914
parent 915eb1539a
1 changed files with 28 additions and 0 deletions
--- a/pages/students/2021/matej_novotny/README.md
+++ b/pages/students/2021/matej_novotny/README.md
@ -21,6 +21,34 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
 2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.

+Stretnutie 9.10.2025
+
+Stav:
+
+- HF transformers tutoriály na tokenizáciu.
+- spísané poznámky - LLM a tokenizácia (2 PDF z google scholar)
+- stiahnuté nejaké články v wikipédie a vyskúšaný klasifikačný skript.
+- vytvorený prístup na novotny@titan.kemt.fei.tuke.sk . Používajte adresár /mnt/sharedhome/novotny
+
+Úlohy:
+
+- Oboznámte sa so skriptami a dátami v /mnt/sharedhome/hladek/bert-train corpus3, slavic1
+- Vytvorte skript pre rozpoznávanie nenávisti v texte. Cieľom je vytvoriť korpus bez "nenávistného" textu. Zistite, koľko nenávistných textov je vo webových korpusoch. 
+- Ak je to potrebné, natrénujte model pre ropoznávanie slovenského nenávistného textu. Použite skript pre klasifikáciu a dáta z https://huggingface.co/TUKE-KEMT - senti-sk, toxic-sk a `hate_speech_slovak`.
+- Píšte si poznámku.
+
+Zásobník úloh:
+
+- Oboznámte sa s algoritmami v https://www.nltk.org/book/ch06.html
+- Zistite, či sa nená nenávisť klasifikovať aj nejakou jednoduchšou metódou (bayes, ME) a porovnajte.
+- Vytvorte model pre klasifikáciu druhu alebo témy textu.
+
+Úlohy:
+
+- Pošlite mi poznámky z DP v 6. týždni.
+- Kódy z DP dávajte na katedrový GIT.
+- Naučte sa pracovať s tmux alebo screen
+

 Stretnutie 4.6.2025