Update pages/students/2021/matej_novotny/README.md

This commit is contained in:
dano 2025-03-28 08:11:14 +00:00
parent a6b5be3ce8
commit 887f29c063

View File

@ -40,3 +40,15 @@ Stav:
- Naštudovaný Python, neurónové siete čiastočne.
Úlohy:
- Pozrite si dataset https://huggingface.co/datasets/allenai/c4
- Pozite si knihu https://d2l.ai/
- Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály.
- Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer.
Zásobník úloh:
- definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady.
- Príklad kategórie: Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah,