From 1a6d215f8939d5fa7360d4936913d6671f2a6aa2 Mon Sep 17 00:00:00 2001
From: Daniel Hladek <daniel.hladek@tuke.sk>
Date: Mon, 10 Feb 2025 10:54:01 +0100
Subject: [PATCH] zz

---
 pages/students/2021/matej_novotny/README.md | 19 +++++++++++++++++++
 1 file changed, 19 insertions(+)

diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md
index 508bff648..63c08d87b 100644
--- a/pages/students/2021/matej_novotny/README.md
+++ b/pages/students/2021/matej_novotny/README.md
@@ -15,4 +15,23 @@ rok začiatku štúdia: 2021
 Klasifikácia webových dát pre lepšie jazykové modelovanie
 
 
+Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
+
+
+Stretnutie:
+
+Úlohy:
+
+- Naučte sa Python. Nainštalujte si prostredie Anaconda. 
+- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
+- Zistitee čo je to jazykový model a urobte si poznámky. 
+- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
+- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
+- Zistite, čo je to korpus textov mc4. 
+- Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia. 
+
+Zásobník úloh:
+
+- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
+- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.