History

dano a6b5be3ce8 Update pages/students/2021/matej_novotny/README.md		2025-03-28 08:01:08 +00:00
..
README.md	Update pages/students/2021/matej_novotny/README.md	2025-03-28 08:01:08 +00:00

title

published

taxonomy

Matej Novotný

true

Diplomová práca 2026

Klasifikácia webových dát pre lepšie jazykové modelovanie

Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.

Stretnutie:

Úlohy:

Naučte sa Python. Nainštalujte si prostredie Anaconda.
Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
Zistite čo je to jazykový model a urobte si poznámky.
Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
Zistite, čo je to korpus textov mc4.
Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.

Zásobník úloh:

Stav: