diff --git a/pages/topics/otvorene/README.md b/pages/topics/otvorene/README.md index f6e6c23f..364d3a64 100644 --- a/pages/topics/otvorene/README.md +++ b/pages/topics/otvorene/README.md @@ -13,24 +13,24 @@ Daniel Hládek ## Nápady na projekty -- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu. +- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu. Reklámy, eshopy. Vulgárne diskusie. Zostavenie modelu pre identifikáciu. - Sumarizácia na súdnych alebo lekárskych dátach. -- Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu. LORA/PEFT. +- Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu pomoocu LORA/PEFT. - Spracovanie pomenovaných entít - anonymizácia. -- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako. - Grafové neurónové siete - súdna doména. Alebo Open Data. - Zber slovenských dát z webu. -- Tvorba QA množiny z webu. +- Tvorba množiny otázok a odpovedí z webu. - Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation. -- RWKW - trénvoanie, dotrénovanie -- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech). -- LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword). +- RWKW - trénovanie, dotrénovanie. +- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech). Zostavenie množiny pre dotrénovanie s instuct alebo prefix. +- Zlepšenie LLM embeddingov na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword). - LLM Agents - function calling, REACT. - reinformcement v LLM - https://huggingface.co/docs/trl/index -- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel? -- Model distilation. - Skript pre generovanie "gramatických chýb". - Využitie a nasedenie veľkého LLM na naše servre. Napr. https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview +- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako. +- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel? +- Model distilation. ## Bakalárske práce