This commit is contained in:
Daniel Hládek 2025-02-10 10:54:01 +01:00
parent 1162e335f9
commit 1a6d215f89

View File

@ -15,4 +15,23 @@ rok začiatku štúdia: 2021
Klasifikácia webových dát pre lepšie jazykové modelovanie Klasifikácia webových dát pre lepšie jazykové modelovanie
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
Stretnutie:
Úlohy:
- Naučte sa Python. Nainštalujte si prostredie Anaconda.
- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
- Zistitee čo je to jazykový model a urobte si poznámky.
- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
- Zistite, čo je to korpus textov mc4.
- Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.
Zásobník úloh:
- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.