Update pages/students/2021/matej_novotny/README.md
This commit is contained in:
parent
a6b5be3ce8
commit
887f29c063
@ -40,3 +40,15 @@ Stav:
|
||||
|
||||
- Naštudovaný Python, neurónové siete čiastočne.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pozrite si dataset https://huggingface.co/datasets/allenai/c4
|
||||
- Pozite si knihu https://d2l.ai/
|
||||
- Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály.
|
||||
- Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady.
|
||||
- Príklad kategórie: Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah,
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user