forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			164 lines
		
	
	
		
			4.8 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			164 lines
		
	
	
		
			4.8 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Pavol Hudák
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [dp2025]
 | |
|     tag: [nlp,qa]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| rok začiatku štúdia: 2020
 | |
| 
 | |
| # Diplomová práca 2025
 | |
| 
 | |
| Dotrénovanie veľkého jazykového modelu na odpovede v slovenčine
 | |
| 
 | |
| Zadanie:
 | |
| 
 | |
| 1. Vypracujte prehľad veľkých jazykových modelov v slovenčine.
 | |
| 2. Vypracujte prehľad metód dotrénovania veľkých jazykových modelov.
 | |
| 3. Vyberte vhodnú dátovú množinu v slovenčine a dotrénujte veľký jazykový model.
 | |
| 4. Vyhodnoťte experimenty a navrhnite zlepšenia. 
 | |
| 
 | |
| 
 | |
| 
 | |
| Ciel:
 | |
| 
 | |
| - Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
 | |
| - Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
 | |
| - Strojový preklad vybranej množiny instruct.
 | |
| 
 | |
| Stretnutie 21.2.2025
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Natrénovaný Mistral 7B Slovak Alpaca (celej, 4 epochy) na quadro.
 | |
| - Strojové preklady Seamless do angličtiny (neviem na čo).
 | |
| - Použitý model Opus na backtranslation - alpaca.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Zlepšite štruktúru aj text DP.
 | |
| - Vyhodnotte výsledný model. Vedúci dodá skripty. Alebo dodajte model vedúcemu. Výsledky dajte do práce. 
 | |
| 
 | |
| 
 | |
| Zásobník uloh:
 | |
| 
 | |
| - Dotrénujte iný model, napr. GEMMA.
 | |
| - Po vyhodnotení skúste zlepšiť model - pridať nové dáta, pridať epochy.
 | |
| - Strojovo preložte vhodné zdroje na dotrénovanie. Konzultujte vedúceho. 
 | |
| 
 | |
| 
 | |
| 
 | |
| Stretnutie 14.11.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle.
 | |
| - Pokračuje písanie.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup.
 | |
| - Pokračujte v písaní
 | |
| - Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely.
 | |
| 
 | |
| Zásobník úloh:
 | |
|  
 | |
| - Dotrénujte aj iné modely a porovnajte výsledky.
 | |
| - Zverejnite dotrénovaný model alebo viac modelov  na HF HUB. využijeme TUKE-KEMT org. 
 | |
| 
 | |
| 
 | |
| Stretnutie 15.10.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Napísané 4 strany poznámok o Transformers.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT. 
 | |
| - Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA.
 | |
| Použite server quadro alebo Kaggle. 
 | |
| - Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články. 
 | |
| 
 | |
| 
 | |
| 
 | |
| 
 | |
| # Diplomový projekt 2024
 | |
| 
 | |
| Ciele na semester:
 | |
| 
 | |
| - Zobrať veľký jazykový model (základný alebo instruct alebo chat). 
 | |
| - Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
 | |
| - Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
 | |
| - Vyhodnotiť presnosť QA dotrénovaného modelu.
 | |
| 
 | |
| Ďalšie nápady:
 | |
| 
 | |
| - Automaticky zlepšiť "prompt" pre QA.
 | |
| 
 | |
| Vybrať jednu z úloh:
 | |
| 
 | |
| - Tvorba instruct datasetu - Anotácia alebo preklad množín
 | |
| - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
 | |
| 
 | |
| 
 | |
| Stretnutie 7.6.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Práca na dotrénovaní LLama3 a Phi2 cez kaggle, zatiaľ nefunguje.
 | |
| 
 | |
| Stretnutie 5.4.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Nainštalované PrivateGPT. 
 | |
| - Nainštalovaná Anaconda a Python, aj štúdium a príprava.
 | |
| - Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
 | |
| - Vyskúšajte modely cez ollama.
 | |
| - Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup.
 | |
| - Kandidáti sú UMT5, TinyLLama, LLama3, Mistral, mt0, Phi alebo iné.
 | |
| - Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). 
 | |
| - Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Strojovo preložiť databázu OpenORCA. 
 | |
| 
 | |
| Stretnutie 23.2.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC.
 | |
| - Vyskúšaný HF google/t5 ... na úlohu strojového prekladu
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračujte v štúdiu podľa otvorených úloh.
 | |
| - Nainštalujte a vyskúšajte softvér PrivateGPT. 
 | |
| - Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Nainštalujte a vyskúšajte balíček LangChain.
 | |
| - Zistite čo je to metóda PEFT - LORA.
 | |
| - Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca.
 | |
| - Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej. 
 | |
| 
 | |
| Stretnutie 14.2.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [ ] Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA?  Napíšte si poznámky.
 | |
| - [x] Nainštalujte si Anaconda.
 | |
| - [-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning.
 | |
| - [x] Nainštalujte si knižnicu Huggingface Transformers. 
 | |
| - [ ] Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b
 | |
| - [ ] Prejdite si tento tutoriál https://huggingface.co/blog/llama2
 |