182 lines
		
	
	
		
			7.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			182 lines
		
	
	
		
			7.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
---
 | 
						|
title: Vladyslav Krupko
 | 
						|
published: true
 | 
						|
taxonomy:
 | 
						|
    category: [bp2024]
 | 
						|
    tag: [spelling]
 | 
						|
    author: Daniel Hladek
 | 
						|
---
 | 
						|
 | 
						|
rok začiatku štúdia: 2020
 | 
						|
 | 
						|
# Bakalárska práca 2024
 | 
						|
 | 
						|
 | 
						|
1. Napíšte prehľad  existujúcich jazykových modelov  pre generovanie slovenského jazyka.
 | 
						|
2. Získajte a pripravte korpus dát pre úlohu generovania odpovedí v slovenskom jazyku. Vyberte vhodný zdroj a pripravte ho do podoby vhodnej na trénovanie neurónových sietí.  Sumarizujte získané dáta v tabuľke. 
 | 
						|
3. Natrénujte neurónovú sieť pre úlohu generovania odpovede  a vyhodnoťte výsledky. 
 | 
						|
4. Vyhodnoťte experimenty, identifikujte slabé miesta a navrhnite vylepšenia. 
 | 
						|
 | 
						|
 | 
						|
Na Maise je vypísaná nová téma ohľadom "konverzačnej umelej inteligencie". Je potrebné čím skôr finalizovať tému aj praconvé úlohy.
 | 
						|
 | 
						|
Ciele:
 | 
						|
 | 
						|
- Dotrénovať ChatGPT alebo iný generatívny model pre vlastnú databázu otázok a odpovedí.
 | 
						|
 | 
						|
Stretnutie 15.5.2025
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Rozpísaná práca
 | 
						|
- Experimenty sú pripravené (podrobne neviem).
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Dajte prácu do šablóny a vypracujte ASAP. 
 | 
						|
- Do práce môžete dokresliť diagramy. Dôsledne citujte - uvádzajte referencie aj pre obrázky.
 | 
						|
- Stiahnite si zadávací list a šablónu z ETD knižnice. 
 | 
						|
- Zaregistrujte sa do knižnice na vytlačenie práce. Na to budete potrebovať titulný list a počet strán. 
 | 
						|
- Pošlite vedúcemu na kontrolu čím skôr (do budúceho utorka). 
 | 
						|
- Na vyhodnotenie generatívneho modelu použite metriku BLEU. Na to potrebujete očakávaný výstup modelu.
 | 
						|
 | 
						|
Stretnutie 26.4. 2024
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Práca na dátach GymBeam. Scraper ide. Máme otázky o procese objednania.
 | 
						|
- Vyskúšané mt5, llama 2 7B, mixtral, 
 | 
						|
 | 
						|
Úloha:
 | 
						|
 | 
						|
- Pripravte dáta na úlohu odpovede na otázku. V jednej jednotke by mala byť otázka, odpoveď a dokument kde sa nachádza odpoveď. Urobte niekoľko 100 jednotiek. Dáta rozdeľte na dve skupiny - trénovaciu aj testovaciu. Dáta dajte do podoby kompatibilnej s databázou sk-quad.
 | 
						|
- Ku Vašim dátam môžete primešať dáta zo SK QUAD.
 | 
						|
- Naučte rôzne neurónové siete mt5base, Slovakbert, llama  odpovedať na otázku a vyhodnnotte výsledky. Na quadro nainštaluje Anaconda.
 | 
						|
- Nainštalujte Pytorch, Transformers z repozitára. Použite screen alebo tmux na spustenie.Kartu vyberiete pomocou premennej prostredia CUDA_VISIBLE_DEVICES.
 | 
						|
- Použite skripty z https://github.com/huggingface/transformers/tree/main/examples/pytorch/question-answering . 
 | 
						|
- Pokračujte v písaní práce.
 | 
						|
 | 
						|
Zásobník:
 | 
						|
 | 
						|
- Na dotrénovanie LLAMA alebo podobného modelu musíte použiť PEFT. https://www.theaidream.com/post/fine-tuning-large-language-models-llms-using-peft
 | 
						|
 | 
						|
 | 
						|
Stretnutie 29.1.2024
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Prezentácia je.
 | 
						|
- Získané dáta z GymBeam. Selenium Scraper je veľmi pomalý, nevieme prečo.
 | 
						|
- Vyskúšané ChatGPT API s dátami čo máme. Odpoveď je zatiaľ po anglicky.
 | 
						|
- Na prevod z csv do json je použitá LLAMA.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Na vyhdonotenie je potrebné rozdeliť dáta na dve časti, trénovaciu a testovaciu. Testovacie dáta vynechajte z trénovania.  Sledujte čo generuje model a porovnajte to s tým čo je očakávané v dátach. Ako metriku porovnania použite ROUGE alebo BLEU.
 | 
						|
- Výsledky dajte do tabuľky do práce.
 | 
						|
- Pokračujte v písaní práce.
 | 
						|
- Pokračujte v získavaní a príprave dát.
 | 
						|
 | 
						|
Zásobník:
 | 
						|
 | 
						|
- Na rovnakých dátach natrénujte "lokálny model" pomocou skriptov Huggingface (machine translation) - mt5-base, llama-7B-4bit . Musíte nainštalovať transformers zo zdrojákov. Musíte si vytvoriť nové virtuálne prostredie a najprv nainštalovať pytorch.
 | 
						|
 
 | 
						|
 | 
						|
 | 
						|
Stretnutie 15.12.2023
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Napísané texty podľa pokynov. Experimenty ešte neboli vykonané.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Z webu získajte vhodnú sadu otázok a odpovedí. Uložte ju vo formáte json - jeden dokument na jede riadok. Využite Váš scraper. Ako zdroj skúste použiť Otázky zákazníkov z GymBeam. Uložte  - v jednom dokumente by mal byť informácie o produktem otázky aj odpovede. Ak sa to nepodarí, zamerajte sa na iný zdroj dát. Napríklad https://www.modrastrecha.sk/forum/ , alebo https://www.modrykonik.sk/forum.
 | 
						|
- Pripravte dáta do vhodnej podoby a natrénujte generatívny model - ChatGPT, T5-SMALL, 
 | 
						|
- Vyhoddnotte všetky modely, výsledky sumarizujte v tabuľkách. Experimenty opíšte do práce.
 | 
						|
- Urobte si repozitár bp2024 na git.kemt.fei.tuke.sk. Skripty dávajte na git.
 | 
						|
 | 
						|
 | 
						|
 | 
						|
Stretnutie 21.11.2023
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Napísaný text na tému Seq2Seq.
 | 
						|
- Napísaný scraper pre získavanie dát z E shopu.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Skúste dotrénovať model ChatGPT. Využijeme kredity [Azure pre študentov](https://azureforeducation.microsoft.com/devtools) . Prihlásite sa ako študent do MAISU.  Prejdite si [tutoriál](https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/fine-tuning?tabs=turbo&pivots=programming-language-studio).  Dávajte pozor, aby ste si nevyčerpali študentské kredity.
 | 
						|
- Zistite, ako funguje ChatGPT a ako ho dotrénovať. Prečítajte si niekoľko blogov a napíšte si poznámky. Použite aj odkazy na odborné články. 
 | 
						|
- Zistite, ako vyhodnotiť dotrénovaný model. Ako funguje https://github.com/openai/evals ? Napíšte o tom poznánky.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Na generovanie odpovedí použijeme jednoduchý model T5-small v HF transformers.
 | 
						|
- Vytvorte trénovaciu databázu ktorá Vás zaujíma vo formáte ktorý je požadovaný. Druhá možnosť je využiť "Košické dáta". 
 | 
						|
- Preštudujte si knihu https://d2l.ai/ a napíšte si z nej poznámky.
 | 
						|
- Zistite ako funguje model T5 a model BART a napíšte o tom správu na 3 strany. Odborné články vyhľadajte na Google Scholar. Do správy zapíšte ktoré odborné články ste prečítali.
 | 
						|
- Nainštalujte si prostredie Anaconda.
 | 
						|
- Nainštalujte si knižnicu HF transformers, prejdite si základný tutoriál. 
 | 
						|
- Prejdite si tutoriál https://huggingface.co/docs/transformers/tasks/summarization
 | 
						|
 | 
						|
 | 
						|
# Bakalárska práca 2023
 | 
						|
 | 
						|
Téma: Oprava preklepov v slovenskom jazyku.
 | 
						|
 | 
						|
Súvisiaca dizertačná práca [Maroš Harahus](/students/2016/maros_harahus).
 | 
						|
 | 
						|
Cieľ: 
 | 
						|
 | 
						|
- Naštudovať si problematiku opravy preklepov a napísať prehľad aktuálnych metód.
 | 
						|
- Vykonať jednoduchý experiment na automatickú opravu preklepov pomocou neurónovej siete.
 | 
						|
- Naprogramovať webovú demo aplikáciu.
 | 
						|
 | 
						|
   
 | 
						|
 | 
						|
Stretnutie 28.9.2023
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Nainštalovaná Anaconda, problém s CUDA.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Pokračujte v otvorených úlohách z minulého roka.
 | 
						|
- Na inštalovanie Pytorch je potrebné nainštalovať najprv CUDa cez Anaconda.
 | 
						|
 | 
						|
 conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=10.2 -c pytorch
 | 
						|
  
 | 
						|
Nápad:
 | 
						|
 | 
						|
- Natrénovať chatbota pre pomoc zákazníkom. Aké trénovacie dáta a aký model použiť?
 | 
						|
 | 
						|
Stretnutie 29.9.2022
 | 
						|
 | 
						|
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- [ ] Prečítajte si článok "Survey of Automatic Spelling Correction" a napíšte z neho poznámky na cca 2 strany.
 | 
						|
- [ ] Prečítajte si článok Comparison of recurrent neural networks for slovak punctuation restoration.
 | 
						|
- [ ] Zistite, ako funguje neurónový strojový preklad. Prečítajte si niekoľko blogov a napíšte si poznámky na jednu stranu, uveďte aj odkazy na články. Kľúčové slovíčko je enkóder-dekóder architektúra.
 | 
						|
- [x] Nainštalujte si systém Anaconda.
 | 
						|
- [-] Nainštalujte si knižnicu Pytorch
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- [ ] Nainštalujte si systém Fairseq
 | 
						|
- [ ] Prejdite si aspoň jeden fairseq tutoriál, napr. https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html
 | 
						|
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Vybrať dáta a urobiť experiment.
 | 
						|
- naprogramovať demo.
 | 
						|
 | 
						|
 | 
						|
 | 
						|
 |