zz
This commit is contained in:
		
							parent
							
								
									915eb1539a
								
							
						
					
					
						commit
						d5efd6b914
					
				| @ -21,6 +21,34 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu. | ||||
| 2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana. | ||||
| 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model. | ||||
| 
 | ||||
| Stretnutie 9.10.2025 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - HF transformers tutoriály na tokenizáciu. | ||||
| - spísané poznámky - LLM a tokenizácia (2 PDF z google scholar) | ||||
| - stiahnuté nejaké články v wikipédie a vyskúšaný klasifikačný skript. | ||||
| - vytvorený prístup na novotny@titan.kemt.fei.tuke.sk . Používajte adresár /mnt/sharedhome/novotny | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Oboznámte sa so skriptami a dátami v /mnt/sharedhome/hladek/bert-train corpus3, slavic1 | ||||
| - Vytvorte skript pre rozpoznávanie nenávisti v texte. Cieľom je vytvoriť korpus bez "nenávistného" textu. Zistite, koľko nenávistných textov je vo webových korpusoch.  | ||||
| - Ak je to potrebné, natrénujte model pre ropoznávanie slovenského nenávistného textu. Použite skript pre klasifikáciu a dáta z https://huggingface.co/TUKE-KEMT - senti-sk, toxic-sk a `hate_speech_slovak`. | ||||
| - Píšte si poznámku. | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Oboznámte sa s algoritmami v https://www.nltk.org/book/ch06.html | ||||
| - Zistite, či sa nená nenávisť klasifikovať aj nejakou jednoduchšou metódou (bayes, ME) a porovnajte. | ||||
| - Vytvorte model pre klasifikáciu druhu alebo témy textu. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pošlite mi poznámky z DP v 6. týždni. | ||||
| - Kódy z DP dávajte na katedrový GIT. | ||||
| - Naučte sa pracovať s tmux alebo screen | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 4.6.2025 | ||||
| 
 | ||||
|  | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user