Update 'pages/students/2019/kristian_sopkovic/README.md'

This commit is contained in:
dano 2023-11-03 08:28:24 +00:00
parent 84f7990e3b
commit f516a886e9

View File

@ -46,11 +46,17 @@ Stav:
- Dotrénovanie multilinguálnych modelov na NLI databázach. MNLR loss. Model E5 a varianty. Batch size by mala byť najmenej 256. LR na finetuning je E-5. Preto je možné pracovať iba so SMALL model. Max seq. len bol orezaný na 256 z 512 aby to išlo na 1x24 GB Titan.
- SIMSCE prístup na trénovanie pomocou MNLR, je SOTA. Koher reranker je tiež SOTA, ale je komerčný.
- Pokračujeme v minulých úlohách.
- Evaluačná množina SK QUAD bola preložená do nemčiny a angličtiny.
- Mistrail LLM model natrénovaný na európskych jazykoch.
Úlohy:
- Chceme dotrénovať E5 model na anglickom, nemeckom a slovenskom SNLI pre úlohu kros linguálneho IR. Vyhodnocovať budeme na SQUADE anglickom, nemeckom a slovenskom jazyku.
- Pokračujte v písaní diplomovej práce. Pripravte si osnovu a ku každej časti napíšte čo by v nej malo byť. Udržiavajte si zoznam použitej literatúry. Poznačte si bib. údaje o článkoch a knihách z ktorých čerpáte, priradte kódy jednotlivým záznamom.
Zásobník úloh:
- Výsledky budeme demonštrovať na košických dátach.
Stretnutie 13.10.2023
@ -60,7 +66,6 @@ Stav:
- Spracované dáta z mesta Košice - 110 najčastejších otázok a odpovedí.
- Nasadená 13B ChatLLama na Titan, 4 bit kvantizácia.
Úlohy:
- Chceme vytvoriť model pre cross-lingual information retrieval. Model bude vedieť vytvoriť "vyhľadávací embedding" pre texty a otázky vo viacerých jazykoch.