1.0 KiB
1.0 KiB
title | published | taxonomy | ||||||||
---|---|---|---|---|---|---|---|---|---|---|
Matej Novotný | true |
|
rok začiatku štúdia: 2021
Diplomová práca 2026
Klasifikácia webových dát pre lepšie jazykové modelovanie
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
Stretnutie:
Úlohy:
- Naučte sa Python. Nainštalujte si prostredie Anaconda.
- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
- Zistitee čo je to jazykový model a urobte si poznámky.
- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
- Zistite, čo je to korpus textov mc4.
- Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.
Zásobník úloh:
- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.