This commit is contained in:
Daniel Hládek 2025-10-09 09:39:11 +02:00
parent 915eb1539a
commit d5efd6b914

View File

@ -21,6 +21,34 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.
Stretnutie 9.10.2025
Stav:
- HF transformers tutoriály na tokenizáciu.
- spísané poznámky - LLM a tokenizácia (2 PDF z google scholar)
- stiahnuté nejaké články v wikipédie a vyskúšaný klasifikačný skript.
- vytvorený prístup na novotny@titan.kemt.fei.tuke.sk . Používajte adresár /mnt/sharedhome/novotny
Úlohy:
- Oboznámte sa so skriptami a dátami v /mnt/sharedhome/hladek/bert-train corpus3, slavic1
- Vytvorte skript pre rozpoznávanie nenávisti v texte. Cieľom je vytvoriť korpus bez "nenávistného" textu. Zistite, koľko nenávistných textov je vo webových korpusoch.
- Ak je to potrebné, natrénujte model pre ropoznávanie slovenského nenávistného textu. Použite skript pre klasifikáciu a dáta z https://huggingface.co/TUKE-KEMT - senti-sk, toxic-sk a `hate_speech_slovak`.
- Píšte si poznámku.
Zásobník úloh:
- Oboznámte sa s algoritmami v https://www.nltk.org/book/ch06.html
- Zistite, či sa nená nenávisť klasifikovať aj nejakou jednoduchšou metódou (bayes, ME) a porovnajte.
- Vytvorte model pre klasifikáciu druhu alebo témy textu.
Úlohy:
- Pošlite mi poznámky z DP v 6. týždni.
- Kódy z DP dávajte na katedrový GIT.
- Naučte sa pracovať s tmux alebo screen
Stretnutie 4.6.2025