zpwiki/pages/students/2021/matej_novotny
2025-06-04 07:41:47 +00:00
..
README.md Update pages/students/2021/matej_novotny/README.md 2025-06-04 07:41:47 +00:00

title published taxonomy
Matej Novotný true
category tag author
dp2026
nlp
Daniel Hladek

rok začiatku štúdia: 2021

Diplomová práca 2026

Klasifikácia webových dát pre lepšie jazykové modelovanie

Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.

  1. Trénovacie dáta zotriedime podľa druhu (blogy, eshopy, wikipedia, tematicka stranka, diskusie, kniha, clanok,reklama). Druhy textu vyjadrujú kvalitu. Mozeme identifikovat aj domenu (zdravie, pravo, architektura, auta, ). Na to využijeme alebo natrénujeme model. Môžeme vyhodnotiť aj mieru nenávisti v danom texte.
  2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
  3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.

Stretnutie 4.6.2025

Stav:

  • naštudovaná klasifikácia pomocou Transformer.
  • preskúmany mc4 dataset.

Úloha:

  • naučiť sa pracovať s HF Transformers. Prejdite si tutoriál na klasifikáciu dokumentov. Pozrite sa do adresára na githube examples/pytorch/classification, tam nájdete skripty pre klasifikáciu.
  • Oboznámte sa s existujúcimi modelmi pre klasifikáciu textu (nenávisť, téma, druh ...).
  • Napísať skript, ktorý nám toho povie veľa o neznámom texte - druh, téma, nenávisť. Cieľ je aby klasifikácia prebiehala rýchlo pretože textu je veľa. Bude treba odhadnúť, koľko času budeme potrebovať na spracovanie veľkého možstva textu - počet kilobajtov za sekundu.

Stretnutie:

Úlohy:

  • Naučte sa Python. Nainštalujte si prostredie Anaconda.
  • Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
  • Zistite čo je to jazykový model a urobte si poznámky.
  • Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
  • Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
  • Zistite, čo je to korpus textov mc4.
  • Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.

Zásobník úloh:

  • Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
  • Natrénujte neurónovú sieť pre rozlišovanie druhov textov.

Stretnutie 28.3.2025

Stav:

  • Naštudovaný Python, neurónové siete čiastočne.

Úlohy:

  • Pozrite si dataset https://huggingface.co/datasets/allenai/c4
  • Pozite si knihu https://d2l.ai/
  • Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály.
  • Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer.

Zásobník úloh:

  • definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady.
  • Príklad kategórie: Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah,