zz
This commit is contained in:
parent
1162e335f9
commit
1a6d215f89
@ -15,4 +15,23 @@ rok začiatku štúdia: 2021
|
|||||||
Klasifikácia webových dát pre lepšie jazykové modelovanie
|
Klasifikácia webových dát pre lepšie jazykové modelovanie
|
||||||
|
|
||||||
|
|
||||||
|
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
|
||||||
|
|
||||||
|
|
||||||
|
Stretnutie:
|
||||||
|
|
||||||
|
Úlohy:
|
||||||
|
|
||||||
|
- Naučte sa Python. Nainštalujte si prostredie Anaconda.
|
||||||
|
- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
|
||||||
|
- Zistitee čo je to jazykový model a urobte si poznámky.
|
||||||
|
- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
|
||||||
|
- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
|
||||||
|
- Zistite, čo je to korpus textov mc4.
|
||||||
|
- Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.
|
||||||
|
|
||||||
|
Zásobník úloh:
|
||||||
|
|
||||||
|
- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
|
||||||
|
- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.
|
||||||
|
|
||||||
|
Loading…
Reference in New Issue
Block a user