forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | taxonomy | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Otvorené projekty | true | 
  | 
Otvorené témy záverečných prác
Daniel Hládek
Nápady na projekty
- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu.
 - Sumarizácia na súdnych alebo lekárskych dátach.
 - Dotrénovanie jazykového modelu pre súdnu alebo lekársky doménu.
 - Spracovanie pomenovaných entít - anonymizácia.
 - Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
 - Grafové neurónové siete - súdna doména. Alebo Open Data.
 - Zber slovenských dát z webu.
 - Tvorba QA množiny z webu.
 - Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation.
 - RWKW - trénvoanie, dotrénovanie
 - Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech).
 - LLM embeddingy na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
 - LLM Agents - function calling, REACT.
 - reinformcement v LLM - https://huggingface.co/docs/trl/index
 - Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
 
Bakalárske práce
Naučíte sa:
- niečo o spracovaní prirodzeného jazyka
 - vytvárať webové aplikácie
 - pracovať s nástrojmi v jazyku Python
 - prekonávať technické problémy
 
Požiadavky:
- chcieť sa naučiť niečo nové
 
Demonštračný systém pre generovanie odpovede na otázku v prirodzenom jazyku
- Natrénujte existujúci systém pre generovanie odpovede na otázku v prorodzdenom jazyku.
 - Vytvorte demonštračnú webovú aplikáciu.
 
Strojový preklad slovenského jazyka
- Zoberte existjúci systém pre strojový preklad.
 - Pripravte existujúci paralelný korpus pre trénovanie.
 - Vytvorte model pre strojový preklad slovenského jazyka.
 
Rozpoznávanie pomenovaných entít v slovenskom jazyku
- Zlepšite model pre rozpoznávanie pomenovaných entít
 - Anotujte korpus, navrhnite lepší klasifikátor.
 
Vyhľadávač na slovenskom internete
- Vytvorte index pre vyhľadávanie v databáze slovenských stránok (Cassandra, Elasticseaech).
 - Vytvorte webové rozhranie k vyhľadávaču
 
Diplomové práce
Naučíte sa:
- Niečo viac o neurónových sieťach.
 - Vytvárať jednoduché programy na úpravu dát.
 - Zapojiť sa do reálneho výskumu.
 
Morfologická analýza s podporou predtrénovania
- Zoberte existujúci model pre morfologickú analýzu slovenského jazyka vyhodnotte ho
 - Použite BERT model na natrénovanie morfologickej anotácie a porovnajte presnosť so základným modelom.
 
Slovné jednotky v predspracovaní pre strojový preklad
- Natrénujte systém pre strojový preklad
 - Vytvorte niekoľko modelov pre rozdelenie slov na menšie jednotky v slovenskom jazyku. Pre každý model rozdelenia slov natrénujte systém pre strojový preklad.
 - Porovnajte výsledky strojového prekladu s rôznymi rozdeleniami slov.