forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			70 lines
		
	
	
		
			1.8 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			70 lines
		
	
	
		
			1.8 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
---
 | 
						|
title: Denis Le Thanh
 | 
						|
published: true
 | 
						|
taxonomy:
 | 
						|
    category: [bp2026]
 | 
						|
    tag: [lm,nlp]
 | 
						|
    author: Daniel Hladek
 | 
						|
---
 | 
						|
 | 
						|
 | 
						|
rok začiatku štúdia: 2023
 | 
						|
 | 
						|
študent KPI
 | 
						|
 | 
						|
vedúci Ing. Tomáš Kormaník
 | 
						|
 | 
						|
konzultácie: Ing. Kristián Sopkovič
 | 
						|
 | 
						|
# Bakalárska práca 2026
 | 
						|
 | 
						|
 | 
						|
Téma:
 | 
						|
 | 
						|
Trénovanie jazykového modelu pre spracovanie inštrukcií v prirodzenom jazyku
 | 
						|
 | 
						|
 | 
						|
Ciele:
 | 
						|
 | 
						|
- Skúsiť dotrénovať slovenský generatívny model (slovak-mistral-7b) pre inštrukcie.
 | 
						|
 | 
						|
Stretnutie 3.10.2025
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Naštudované LLM, transformers, anaconda, Okapi, open instruct, ollama. 
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Naštudovať a vyskúšať PEFT-QLORA.
 | 
						|
- Vyskúšajte si skript pre dotrénovanie Slovak Mistral.(poslal som cez Teams)
 | 
						|
- Oboznámte sa s Huggingface TRL.
 | 
						|
- Oboznámte sa s knižnicou "unsloth".
 | 
						|
- Oboznámte sa s https://github.com/hiyouga/LLaMA-Factory
 | 
						|
- Pracujte na teoretickej časti: opíšte základné pojmy, metódy a dátové množiny. Používajte google scholar a bibliografické odkazy.
 | 
						|
- Najprv pracujte s domácou GPU, ak nebude stačiť pracujte s Google Coolab, ak nebude stačiť požiadajte konzultanta.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Dotrénujte a vyhodnotte Slovak Mistral.
 | 
						|
 | 
						|
Stretnutie 26.2.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
 | 
						|
- Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
 | 
						|
- Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
 | 
						|
- Poučte sa o strojovom účení. Dive into deep learning.
 | 
						|
- Vyskúšajte si framework HF Transformers.
 | 
						|
- Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
 | 
						|
- Oboznámte sa s repozitárom https://github.com/allenai/open-instruct, prečítajte si články
 | 
						|
- Oboznámte sa s repozitárom https://github.com/nlp-uoregon/Okapi, prečítajte si články
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Strojovo preložte vybranú množinu inštrukcií a použite ju v trénovaní.
 | 
						|
- Vyhodnotte výsledný model a porovnajte ho.
 | 
						|
 | 
						|
 |