---
title: Matej Novotný
published: true
taxonomy:
    category: [dp2026]
    tag: [nlp]
    author: Daniel Hladek
---


rok začiatku štúdia: 2021

# Diplomová práca 2026

Klasifikácia webových dát pre lepšie jazykové modelovanie


Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.


Stretnutie:

Úlohy:

- Naučte sa Python. Nainštalujte si prostredie Anaconda. 
- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
- Zistitee čo je to jazykový model a urobte si poznámky. 
- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
- Zistite, čo je to korpus textov mc4. 
- Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia. 

Zásobník úloh:

- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.