zz
This commit is contained in:
parent
915eb1539a
commit
d5efd6b914
@ -21,6 +21,34 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
|
||||
2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
|
||||
3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.
|
||||
|
||||
Stretnutie 9.10.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- HF transformers tutoriály na tokenizáciu.
|
||||
- spísané poznámky - LLM a tokenizácia (2 PDF z google scholar)
|
||||
- stiahnuté nejaké články v wikipédie a vyskúšaný klasifikačný skript.
|
||||
- vytvorený prístup na novotny@titan.kemt.fei.tuke.sk . Používajte adresár /mnt/sharedhome/novotny
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Oboznámte sa so skriptami a dátami v /mnt/sharedhome/hladek/bert-train corpus3, slavic1
|
||||
- Vytvorte skript pre rozpoznávanie nenávisti v texte. Cieľom je vytvoriť korpus bez "nenávistného" textu. Zistite, koľko nenávistných textov je vo webových korpusoch.
|
||||
- Ak je to potrebné, natrénujte model pre ropoznávanie slovenského nenávistného textu. Použite skript pre klasifikáciu a dáta z https://huggingface.co/TUKE-KEMT - senti-sk, toxic-sk a `hate_speech_slovak`.
|
||||
- Píšte si poznámku.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Oboznámte sa s algoritmami v https://www.nltk.org/book/ch06.html
|
||||
- Zistite, či sa nená nenávisť klasifikovať aj nejakou jednoduchšou metódou (bayes, ME) a porovnajte.
|
||||
- Vytvorte model pre klasifikáciu druhu alebo témy textu.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pošlite mi poznámky z DP v 6. týždni.
|
||||
- Kódy z DP dávajte na katedrový GIT.
|
||||
- Naučte sa pracovať s tmux alebo screen
|
||||
|
||||
|
||||
Stretnutie 4.6.2025
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user