---
title: Matej Novotný
published: true
taxonomy:
    category: [dp2026]
    tag: [nlp]
    author: Daniel Hladek
---


rok začiatku štúdia: 2021

# Diplomová práca 2026

Klasifikácia webových dát pre lepšie jazykové modelovanie


Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.


Stretnutie:

Úlohy:

- Naučte sa Python. Nainštalujte si prostredie Anaconda. 
- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
- Zistite čo je to jazykový model a urobte si poznámky. 
- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
- Zistite, čo je to korpus textov mc4. 
- Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia. 

Zásobník úloh:

- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.

Stretnutie 28.3.2025

Stav:

- Naštudovaný Python, neurónové siete čiastočne.

Úlohy:

- Pozrite si dataset https://huggingface.co/datasets/allenai/c4
- Pozite si knihu https://d2l.ai/
- Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály.
- Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer.

Zásobník úloh:

- definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady.
- Príklad kategórie:  Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah,