forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			229 lines
		
	
	
		
			7.2 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			229 lines
		
	
	
		
			7.2 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Dávid Omasta
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [dp2023,dp2024]
 | |
|     tag: [lm]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| Začiatok štúdia: 2018
 | |
| 
 | |
| Súvisiace stránky:
 | |
| 
 | |
| - [Question Answering](/topics/question) - interný projekt
 | |
| - Jozef Olekšák
 | |
| - Matej Čarňanský (BERT)
 | |
| - Ondrej Megela
 | |
| 
 | |
| # Diplomová práca 2024
 | |
| 
 | |
| Vedúci: Daniel Hládek
 | |
| 
 | |
| Návrh na názov:
 | |
| 
 | |
| Generatívne modely pre automatické odpovede na otázky v slovenskom jazyku
 | |
| 
 | |
| Návrh na zadanie DP:
 | |
| 
 | |
| - Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov.
 | |
| - Vypracujte prehľad slovenských a multilinguálnych generatívnych jazykových modelov.
 | |
| - Navrhnite experiment, pri ktorom bude model generovať odpovede na zadané otázky v kontexte.
 | |
| - Analyzujte výsledky experimentu vhodným spôsobom a identifikujte možné zlepšenia.
 | |
| 
 | |
| Ciele:
 | |
| 
 | |
| - Pripraviť demo.
 | |
| - Pripravť vedecký článok z DP.
 | |
| 
 | |
| Stretnutie 9.2.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Dotrénovaný mt5-small na poľský jazyk.
 | |
| - Práca na texte
 | |
| - Urobené demo streamlit a Dockerfile. 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Zdrojáky dajte na GIT
 | |
| - Pridajte výsledky do tabuľky
 | |
| - Pokračujte v práci na texte.
 | |
| - Pridajte experimenty s modelom https://huggingface.co/google/umt5-small na slovenský, anglický aj poľský jazyk.
 | |
| 
 | |
| 
 | |
| Stretnutie 8.12.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Urobený Dockerfile a compose.
 | |
| - Pridaný experiment s mT5.
 | |
| - Práca na teoretickej časti.
 | |
| - Vyskúšaná LLAMA na idoc aj mt5-base ale nejde kvôli GPU
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračujte v písomnej práci. Výsledky experiemntov opíšte a dajte do tabuliek.
 | |
| - Dokončite DEMOZ
 | |
| - pre porovnanie, vyskúšajte dotrénovať mt5 na dátovej sade pre iný jazyk. Angličtina - squad, Poľský jazyk clarin-pl/poqaud .
 | |
| 
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Keď bude k dispozícii, vyskúšajte nový slovenský t5 model.
 | |
| 
 | |
| 
 | |
| 
 | |
| Stretnutie 10.11
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - DP je rozpísaná. Existuje draft.
 | |
| - Vypracovaný experiment s Slovak t5 small
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [-] Opravte DP podľa pokynov
 | |
| - [x] Pridajte experiment s mt5 small .https://huggingface.co/google/mt5-small
 | |
| - [-] Pripravte demo na nasadenie. Zmente Windows kontajner na Linux.
 | |
| - [x] zdrojáky dajte na kemt GIT
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - [-] Skúste generovanie odpovedí s modelom LLAMA alebo podobným. 
 | |
| - [x] Skúste generovanie odpovedí s "base" modelmi na školskom servri.
 | |
| 
 | |
| Stretnutie 6.10
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Práca na Dockerfile so streamlit
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pozrieť a pracovať na minulých otvorených úlohách.
 | |
| - Pripraviť draft na prečítanie.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Vyskúšať aj iné generatívne modely a pripraviť z nich experimenty.
 | |
| - Pripraviť a vyskúšať aj iné dátové množiny. 
 | |
| 
 | |
| 
 | |
| # Diplomová práca 2023
 | |
| 
 | |
| Téma: Dotrénovanie slovenského generatívneho jazykového modelu.
 | |
| 
 | |
| Vedúci: Ján Staš
 | |
| 
 | |
| Návrh na názov:
 | |
| 
 | |
| Generatívne modely slovenského jazyka
 | |
| 
 | |
| Návrh na zadanie DP:
 | |
| 
 | |
| - Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov.
 | |
| - Vypracujte prehľad slovenských a multilinguálnych generatívnych jazykových modelov.
 | |
| - Navrhnite experiment, pri ktorom bude model generovať odpovede na zadané otázky a kontext.
 | |
| - Analyzujte výsledky experimentu vhodným spôsobom a identifikujte možné zlepšenia.
 | |
| 
 | |
| Ciele na zimný semester:
 | |
| 
 | |
| Praktické:
 | |
| 
 | |
| - Rozbehajte proces dotrénovania jazykových modelov pomocou knižnice Huggingface Transformers
 | |
| - Vyberte alebo vytvorte vhodnú dátovú množinu ktorá bude obsahovať slovenské dialógu.
 | |
| - Vyskúšajte slovenský generatívny model GPT a dotrénujte ho pre použitie v dialógovom systéme.
 | |
| - Vytvorte demonštračnú aplikáciu.
 | |
| 
 | |
| Teoretické:
 | |
| 
 | |
| - Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán).
 | |
| - Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán).
 | |
| 
 | |
| Stretnutie 25.4.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Napísaný draft práce
 | |
| - Pripravené demo s generovaním otázok pomocou t5, huggingface, streamlit, fastapi.
 | |
| - Git je momentálne na https://git.kpi.fei.tuke.sk/do867bc
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pracovať na textovej časti podľa poznámok - zlepšiť text, štruktúru a úpravu.
 | |
| - Vytvoriť repozitár na git.kemt.fei.tuke.sk a dajte tam zdrojáky 
 | |
| - Finalizovať repozitár s demom. Pridajte odkazy na modely, modely nedávajte na GIT. Na git dajte zdrojové kódy v Python a Notebooky. Pridajte README s opisom kódov a návodom na inštaláciu.
 | |
| - Skontrolujte výsledky ROUGE, vyzerajú podozrivo.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Vytvorte Dockerfile
 | |
| 
 | |
| 
 | |
| Stretnutie 24.2.2023
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| 
 | |
| - Rozbehaný notebook na dotrénovanie slovenského t5 na úlohu generatívneho question answering.
 | |
| 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [x] Dajte notebook na GIT
 | |
| - [x] Vyhodnnotte presnosť generovania odpovede pomocou P-R-F1 pre celú dev množinu.
 | |
| - [-] Pokračujte v písaní textu DP. Opíšte slovenský QA dataset.  Slovne opíšte experiment.  Aký postup ste použili, aké dáta, aké modely.
 | |
| - [x] Zopakujte experiment pre model mt5-small, mt5-base. Výsledky dajte do tabuľky.
 | |
| 
 | |
| 
 | |
| Stretnutie 24.11
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - nainštalované prostredie na idoc, spustený hf skript run_generation.py 
 | |
| - prečítané články.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [-] písomne  vysvetlite  ako funguje neurónová sieť typu Transformer .  Uveďte odkazy na odborné články.
 | |
| - [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART.
 | |
| - Vyskúšajte tento skript run_clm.py : https://github.com/huggingface/transformers/tree/main/examples/pytorch/language-modeling. Pozrite si príklad na run_mlm.py v repozitári https://git.kemt.fei.tuke.sk/dano/bert-train v adresári hugging/roberta-train
 | |
| - Pozrite si tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b
 | |
| - Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
 | |
| - Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.
 | |
| - Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)
 | |
| 
 | |
| 
 | |
| Stretnutie 14.10.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Na vlastnom počítači rozbehané Anaconda, Pytorch a CUDA.
 | |
| - Prečítané články.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračovať.
 | |
| 
 | |
| Stretnutie 7.10.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Obznámený s Google Colab. Vyskúšané tutoriály BERT text classification,  
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [-] Prečítajte si ako funguje neurónová sieť typu Transformer a  [ ] písomne to vysvetlite.  Uveďte odkazy na odborné články.
 | |
| - [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART.
 | |
| - [x] Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers.  Použite server idoc.
 | |
| - [x] Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Prečítajte si ako funguje neurónová sieť typu GPT a písomne to vysvetlite, Uveďte odkazy na odborné články.
 | |
| - Vyskúšajte tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b
 | |
| - Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
 | |
| - Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.
 | |
| - Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)
 |