2025-02-10 07:31:15 +00:00
|
|
|
---
|
|
|
|
title: Matej Novotný
|
|
|
|
published: true
|
|
|
|
taxonomy:
|
|
|
|
category: [dp2026]
|
|
|
|
tag: [nlp]
|
|
|
|
author: Daniel Hladek
|
|
|
|
---
|
|
|
|
|
|
|
|
|
|
|
|
rok začiatku štúdia: 2021
|
|
|
|
|
|
|
|
# Diplomová práca 2026
|
|
|
|
|
|
|
|
Klasifikácia webových dát pre lepšie jazykové modelovanie
|
|
|
|
|
|
|
|
|
2025-02-10 09:54:01 +00:00
|
|
|
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
|
|
|
|
|
|
|
|
|
|
|
|
Stretnutie:
|
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
|
|
|
- Naučte sa Python. Nainštalujte si prostredie Anaconda.
|
|
|
|
- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
|
|
|
|
- Zistitee čo je to jazykový model a urobte si poznámky.
|
|
|
|
- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
|
|
|
|
- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
|
|
|
|
- Zistite, čo je to korpus textov mc4.
|
|
|
|
- Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.
|
|
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
|
|
|
|
- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
|
|
|
|
- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.
|
2025-02-10 07:31:15 +00:00
|
|
|
|