zpwiki/pages/students/2021/matej_novotny
2025-02-10 10:54:01 +01:00
..
README.md zz 2025-02-10 10:54:01 +01:00

title published taxonomy
Matej Novotný true
category tag author
dp2026
nlp
Daniel Hladek

rok začiatku štúdia: 2021

Diplomová práca 2026

Klasifikácia webových dát pre lepšie jazykové modelovanie

Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.

Stretnutie:

Úlohy:

  • Naučte sa Python. Nainštalujte si prostredie Anaconda.
  • Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
  • Zistitee čo je to jazykový model a urobte si poznámky.
  • Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
  • Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
  • Zistite, čo je to korpus textov mc4.
  • Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.

Zásobník úloh:

  • Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
  • Natrénujte neurónovú sieť pre rozlišovanie druhov textov.