--- title: Matej Novotný published: true taxonomy: category: [dp2026] tag: [nlp] author: Daniel Hladek --- rok začiatku štúdia: 2021 # Diplomová práca 2026 Klasifikácia webových dát pre lepšie jazykové modelovanie Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu. Stretnutie: Úlohy: - Naučte sa Python. Nainštalujte si prostredie Anaconda. - Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu. - Zistite čo je to jazykový model a urobte si poznámky. - Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky. - Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky. - Zistite, čo je to korpus textov mc4. - Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia. Zásobník úloh: - Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu. - Natrénujte neurónovú sieť pre rozlišovanie druhov textov. Stretnutie 28.3.2025 Stav: - Naštudovaný Python, neurónové siete čiastočne. Úlohy: - Pozrite si dataset https://huggingface.co/datasets/allenai/c4 - Pozite si knihu https://d2l.ai/ - Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály. - Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer. Zásobník úloh: - definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady. - Príklad kategórie: Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah,