diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index 2426326b..26cc4fc5 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -40,3 +40,15 @@ Stav: - Naštudovaný Python, neurónové siete čiastočne. +Úlohy: + +- Pozrite si dataset https://huggingface.co/datasets/allenai/c4 +- Pozite si knihu https://d2l.ai/ +- Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály. +- Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer. + +Zásobník úloh: + +- definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady. +- Príklad kategórie: Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah, +