diff --git a/pages/students/2019/kristian_sopkovic/README.md b/pages/students/2019/kristian_sopkovic/README.md index f3e4b7d1..fa3c1436 100644 --- a/pages/students/2019/kristian_sopkovic/README.md +++ b/pages/students/2019/kristian_sopkovic/README.md @@ -46,11 +46,17 @@ Stav: - Dotrénovanie multilinguálnych modelov na NLI databázach. MNLR loss. Model E5 a varianty. Batch size by mala byť najmenej 256. LR na finetuning je E-5. Preto je možné pracovať iba so SMALL model. Max seq. len bol orezaný na 256 z 512 aby to išlo na 1x24 GB Titan. - SIMSCE prístup na trénovanie pomocou MNLR, je SOTA. Koher reranker je tiež SOTA, ale je komerčný. - Pokračujeme v minulých úlohách. +- Evaluačná množina SK QUAD bola preložená do nemčiny a angličtiny. +- Mistrail LLM model natrénovaný na európskych jazykoch. Úlohy: - Chceme dotrénovať E5 model na anglickom, nemeckom a slovenskom SNLI pre úlohu kros linguálneho IR. Vyhodnocovať budeme na SQUADE anglickom, nemeckom a slovenskom jazyku. +- Pokračujte v písaní diplomovej práce. Pripravte si osnovu a ku každej časti napíšte čo by v nej malo byť. Udržiavajte si zoznam použitej literatúry. Poznačte si bib. údaje o článkoch a knihách z ktorých čerpáte, priradte kódy jednotlivým záznamom. +Zásobník úloh: + +- Výsledky budeme demonštrovať na košických dátach. Stretnutie 13.10.2023 @@ -60,7 +66,6 @@ Stav: - Spracované dáta z mesta Košice - 110 najčastejších otázok a odpovedí. - Nasadená 13B ChatLLama na Titan, 4 bit kvantizácia. - Úlohy: - Chceme vytvoriť model pre cross-lingual information retrieval. Model bude vedieť vytvoriť "vyhľadávací embedding" pre texty a otázky vo viacerých jazykoch.