From d5efd6b9143aa1867f3a5061157140c71f7d8183 Mon Sep 17 00:00:00 2001
From: Daniel Hladek <daniel.hladek@tuke.sk>
Date: Thu, 9 Oct 2025 09:39:11 +0200
Subject: [PATCH] zz

---
 pages/students/2021/matej_novotny/README.md | 28 +++++++++++++++++++++
 1 file changed, 28 insertions(+)

diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md
index b75cbec1..bcae2a7c 100644
--- a/pages/students/2021/matej_novotny/README.md
+++ b/pages/students/2021/matej_novotny/README.md
@@ -21,6 +21,34 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
 2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.
 
+Stretnutie 9.10.2025
+
+Stav:
+
+- HF transformers tutoriály na tokenizáciu.
+- spísané poznámky - LLM a tokenizácia (2 PDF z google scholar)
+- stiahnuté nejaké články v wikipédie a vyskúšaný klasifikačný skript.
+- vytvorený prístup na novotny@titan.kemt.fei.tuke.sk . Používajte adresár /mnt/sharedhome/novotny
+
+Úlohy:
+
+- Oboznámte sa so skriptami a dátami v /mnt/sharedhome/hladek/bert-train corpus3, slavic1
+- Vytvorte skript pre rozpoznávanie nenávisti v texte. Cieľom je vytvoriť korpus bez "nenávistného" textu. Zistite, koľko nenávistných textov je vo webových korpusoch. 
+- Ak je to potrebné, natrénujte model pre ropoznávanie slovenského nenávistného textu. Použite skript pre klasifikáciu a dáta z https://huggingface.co/TUKE-KEMT - senti-sk, toxic-sk a `hate_speech_slovak`.
+- Píšte si poznámku.
+
+Zásobník úloh:
+
+- Oboznámte sa s algoritmami v https://www.nltk.org/book/ch06.html
+- Zistite, či sa nená nenávisť klasifikovať aj nejakou jednoduchšou metódou (bayes, ME) a porovnajte.
+- Vytvorte model pre klasifikáciu druhu alebo témy textu.
+
+Úlohy:
+
+- Pošlite mi poznámky z DP v 6. týždni.
+- Kódy z DP dávajte na katedrový GIT.
+- Naučte sa pracovať s tmux alebo screen
+
 
 Stretnutie 4.6.2025