93 lines
		
	
	
		
			3.3 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			93 lines
		
	
	
		
			3.3 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
---
 | 
						|
title: Otvorené projekty
 | 
						|
published: true
 | 
						|
taxonomy:
 | 
						|
    category: [info]
 | 
						|
    tag: [nn,nlp]
 | 
						|
    author: Daniel Hladek
 | 
						|
---
 | 
						|
# Otvorené témy záverečných prác
 | 
						|
 | 
						|
Daniel Hládek
 | 
						|
 | 
						|
 | 
						|
## Nápady na projekty
 | 
						|
 | 
						|
- Čistenie dát - zlepšenie webových trénovacích korpusov. Identifikácia "neužitočných častí" textu. Reklámy, eshopy. Vulgárne diskusie. Zostavenie modelu pre identifikáciu.
 | 
						|
- Sumarizácia na súdnych alebo lekárskych dátach.
 | 
						|
- Dotrénovanie jazykového modelu pre súdnu alebo lekársku doménu pomoocu LORA/PEFT.
 | 
						|
- Spracovanie pomenovaných entít - anonymizácia. 
 | 
						|
- Grafové neurónové siete - súdna doména. Alebo Open Data. 
 | 
						|
- Zber slovenských dát z webu.
 | 
						|
- Tvorba množiny otázok a odpovedí z webu.
 | 
						|
- Tvorba nových trénovacích dát pomocou LLM - augmentácia, question generation.
 | 
						|
- RWKW - trénovanie, dotrénovanie.
 | 
						|
- Dotrénovanie T5-gen., MIstral modelov s rôznymi datbázami (qa, instruct, sumarizácia, hate speech). Zostavenie množiny pre dotrénovanie s instuct alebo prefix.
 | 
						|
- Zlepšenie LLM embeddingov na slovenčinu - využitie strojovo preložených databáz (MS Marco, Gigaword).
 | 
						|
- LLM Agents - function calling, REACT.
 | 
						|
- reinformcement v LLM - https://huggingface.co/docs/trl/index
 | 
						|
- Skript pre generovanie "gramatických chýb".
 | 
						|
- Využitie a nasedenie veľkého LLM na naše servre. Napr. https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview
 | 
						|
- Opis obrázku v slovenskom jazyku. Zatiaľ neviem ako.
 | 
						|
- Vytvorenie anotovaných dát v slovenčine. Akých? Reasoning? Grammar? Parallel?
 | 
						|
- Model distilation.
 | 
						|
 | 
						|
 | 
						|
## Bakalárske práce
 | 
						|
 | 
						|
Naučíte sa:
 | 
						|
 | 
						|
- niečo o spracovaní prirodzeného jazyka
 | 
						|
- vytvárať webové aplikácie
 | 
						|
- pracovať s nástrojmi v jazyku Python
 | 
						|
- prekonávať technické problémy
 | 
						|
 | 
						|
Požiadavky:
 | 
						|
 | 
						|
- chcieť sa naučiť niečo nové
 | 
						|
 | 
						|
### Demonštračný systém pre generovanie odpovede na otázku v prirodzenom jazyku
 | 
						|
 | 
						|
- Natrénujte existujúci systém pre generovanie odpovede na otázku v prorodzdenom jazyku.
 | 
						|
- Vytvorte demonštračnú webovú aplikáciu.
 | 
						|
 | 
						|
### Strojový preklad slovenského jazyka
 | 
						|
 | 
						|
- Zoberte existjúci systém pre strojový preklad.
 | 
						|
- Pripravte existujúci paralelný korpus pre trénovanie.
 | 
						|
- Vytvorte model pre strojový preklad slovenského jazyka.
 | 
						|
 | 
						|
### Rozpoznávanie pomenovaných entít v slovenskom jazyku
 | 
						|
 | 
						|
- Zlepšite model pre rozpoznávanie pomenovaných entít 
 | 
						|
- Anotujte korpus, navrhnite lepší klasifikátor.
 | 
						|
 | 
						|
### Vyhľadávač na slovenskom internete
 | 
						|
 | 
						|
- Vytvorte index pre vyhľadávanie v databáze slovenských stránok (Cassandra, Elasticseaech).
 | 
						|
- Vytvorte webové rozhranie k vyhľadávaču
 | 
						|
 | 
						|
## Diplomové práce
 | 
						|
 | 
						|
Naučíte sa:
 | 
						|
 | 
						|
- Niečo viac o neurónových sieťach.
 | 
						|
- Vytvárať jednoduché programy na úpravu dát.
 | 
						|
- Zapojiť sa do reálneho výskumu.
 | 
						|
 | 
						|
### Morfologická analýza s podporou predtrénovania
 | 
						|
 | 
						|
- Zoberte existujúci model pre morfologickú analýzu slovenského jazyka  vyhodnotte ho
 | 
						|
- Použite BERT model na natrénovanie morfologickej anotácie a porovnajte presnosť so základným modelom.
 | 
						|
 | 
						|
### Slovné jednotky v predspracovaní pre strojový preklad
 | 
						|
 | 
						|
- Natrénujte systém pre strojový preklad
 | 
						|
- Vytvorte niekoľko modelov pre rozdelenie slov na menšie jednotky v slovenskom jazyku. Pre každý model rozdelenia slov natrénujte systém pre strojový preklad. 
 | 
						|
- Porovnajte výsledky strojového prekladu s rôznymi rozdeleniami slov.
 | 
						|
 | 
						|
 | 
						|
 | 
						|
 | 
						|
 |