forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | taxonomy | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| Matej Novotný | true | 
  | 
rok začiatku štúdia: 2021
Diplomová práca 2026
Klasifikácia webových dát pre lepšie jazykové modelovanie
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
Stretnutie:
Úlohy:
- Naučte sa Python. Nainštalujte si prostredie Anaconda.
 - Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
 - Zistite čo je to jazykový model a urobte si poznámky.
 - Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
 - Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
 - Zistite, čo je to korpus textov mc4.
 - Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.
 
Zásobník úloh:
- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
 - Natrénujte neurónovú sieť pre rozlišovanie druhov textov.
 
Stretnutie 28.3.2025
Stav:
- Naštudovaný Python, neurónové siete čiastočne.
 
Úlohy:
- Pozrite si dataset https://huggingface.co/datasets/allenai/c4
 - Pozite si knihu https://d2l.ai/
 - Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály.
 - Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer.
 
Zásobník úloh:
- definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady.
 - Príklad kategórie: Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah,