zpwiki/pages/students/2021/matej_novotny/README.md

43 lines
1.1 KiB
Markdown

---
title: Matej Novotný
published: true
taxonomy:
category: [dp2026]
tag: [nlp]
author: Daniel Hladek
---
rok začiatku štúdia: 2021
# Diplomová práca 2026
Klasifikácia webových dát pre lepšie jazykové modelovanie
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
Stretnutie:
Úlohy:
- Naučte sa Python. Nainštalujte si prostredie Anaconda.
- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
- Zistite čo je to jazykový model a urobte si poznámky.
- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
- Zistite, čo je to korpus textov mc4.
- Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.
Zásobník úloh:
- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.
Stav:
- Naštudovaný Python, neurónové siete čiastočne.