diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index c818fccb..2d918b2d 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -40,10 +40,15 @@ Stav: Úlohy: - Skúste zaindexovať slovenské dáta. Na vektorovú reprezentáciu použite https://huggingface.co/TUKE-DeutscheTelekom/slovakbert-skquad-mnlr -- Na začiatok zaindexujte slovenskú wikipédiu. +- Na začiatok zaindexujte slovenskú wikipédiu. Sparsovaný text bol dodaný. +- Napíšte o tom čo je to SentenceTransformer - ako sa trénuje a ako sa používa. +- Pozrite si DP M. Stromko a K. Sopkovič. Zásobník úloh: +- Benchmarking vyhľadávania. Vyskúšame viacero embeddingov s rôznym rozmerom. Modely typu Matroshka. +- Zhlukovanie dokumentov - zostavenie doménového korpusu s dát. +- Dolovanie otázok a odpovedí. - Je priestor pre nákupy RPI pre nový RPI klaster. Stretnutie 8.12.2023