zz

2025-02-10 10:54:01 +01:00 · 2025-02-10 10:54:01 +01:00 · 1a6d215f89
commit 1a6d215f89
parent 1162e335f9
1 changed files with 19 additions and 0 deletions
--- a/pages/students/2021/matej_novotny/README.md
+++ b/pages/students/2021/matej_novotny/README.md
@ -15,4 +15,23 @@ rok začiatku štúdia: 2021
 Klasifikácia webových dát pre lepšie jazykové modelovanie


+Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
+
+
+Stretnutie:
+
+Úlohy:
+
+- Naučte sa Python. Nainštalujte si prostredie Anaconda. 
+- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
+- Zistitee čo je to jazykový model a urobte si poznámky. 
+- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
+- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
+- Zistite, čo je to korpus textov mc4. 
+- Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia. 
+
+Zásobník úloh:
+
+- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
+- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.