diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index 508bff64..63c08d87 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -15,4 +15,23 @@ rok začiatku štúdia: 2021 Klasifikácia webových dát pre lepšie jazykové modelovanie +Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu. + + +Stretnutie: + +Úlohy: + +- Naučte sa Python. Nainštalujte si prostredie Anaconda. +- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu. +- Zistitee čo je to jazykový model a urobte si poznámky. +- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky. +- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky. +- Zistite, čo je to korpus textov mc4. +- Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia. + +Zásobník úloh: + +- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu. +- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.