zpwiki/pages/students/2021/matej_novotny/README.md

38 lines
1.0 KiB
Markdown
Raw Normal View History

2025-02-10 07:31:15 +00:00
---
title: Matej Novotný
published: true
taxonomy:
category: [dp2026]
tag: [nlp]
author: Daniel Hladek
---
rok začiatku štúdia: 2021
# Diplomová práca 2026
Klasifikácia webových dát pre lepšie jazykové modelovanie
2025-02-10 09:54:01 +00:00
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
Stretnutie:
Úlohy:
- Naučte sa Python. Nainštalujte si prostredie Anaconda.
- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
- Zistitee čo je to jazykový model a urobte si poznámky.
- Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
- Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
- Zistite, čo je to korpus textov mc4.
- Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.
Zásobník úloh:
- Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
- Natrénujte neurónovú sieť pre rozlišovanie druhov textov.
2025-02-10 07:31:15 +00:00