dmytro_ushatenko/pages/students/2020/vladyslav_krupko/README.md

---
title: Vladyslav Krupko
published: true
taxonomy:
    category: [bp2024]
    tag: [spelling]
    author: Daniel Hladek
---

rok začiatku štúdia: 2020

# Bakalárska práca 2024


1. Napíšte prehľad  existujúcich jazykových modelov  pre generovanie slovenského jazyka.
2. Získajte a pripravte korpus dát pre úlohu generovania odpovedí v slovenskom jazyku. Vyberte vhodný zdroj a pripravte ho do podoby vhodnej na trénovanie neurónových sietí.  Sumarizujte získané dáta v tabuľke. 
3. Natrénujte neurónovú sieť pre úlohu generovania odpovede  a vyhodnoťte výsledky. 
4. Vyhodnoťte experimenty, identifikujte slabé miesta a navrhnite vylepšenia. 


Na Maise je vypísaná nová téma ohľadom "konverzačnej umelej inteligencie". Je potrebné čím skôr finalizovať tému aj praconvé úlohy.

Ciele:

- Dotrénovať ChatGPT alebo iný generatívny model pre vlastnú databázu otázok a odpovedí.

Stretnutie 15.5.2025

Stav:

- Rozpísaná práca
- Experimenty sú pripravené (podrobne neviem).

Úlohy:

- Dajte prácu do šablóny a vypracujte ASAP. 
- Do práce môžete dokresliť diagramy. Dôsledne citujte - uvádzajte referencie aj pre obrázky.
- Stiahnite si zadávací list a šablónu z ETD knižnice. 
- Zaregistrujte sa do knižnice na vytlačenie práce. Na to budete potrebovať titulný list a počet strán. 
- Pošlite vedúcemu na kontrolu čím skôr (do budúceho utorka). 
- Na vyhodnotenie generatívneho modelu použite metriku BLEU. Na to potrebujete očakávaný výstup modelu.

Stretnutie 26.4. 2024

Stav:

- Práca na dátach GymBeam. Scraper ide. Máme otázky o procese objednania.
- Vyskúšané mt5, llama 2 7B, mixtral, 

Úloha:

- Pripravte dáta na úlohu odpovede na otázku. V jednej jednotke by mala byť otázka, odpoveď a dokument kde sa nachádza odpoveď. Urobte niekoľko 100 jednotiek. Dáta rozdeľte na dve skupiny - trénovaciu aj testovaciu. Dáta dajte do podoby kompatibilnej s databázou sk-quad.
- Ku Vašim dátam môžete primešať dáta zo SK QUAD.
- Naučte rôzne neurónové siete mt5base, Slovakbert, llama  odpovedať na otázku a vyhodnnotte výsledky. Na quadro nainštaluje Anaconda.
- Nainštalujte Pytorch, Transformers z repozitára. Použite screen alebo tmux na spustenie.Kartu vyberiete pomocou premennej prostredia CUDA_VISIBLE_DEVICES.
- Použite skripty z https://github.com/huggingface/transformers/tree/main/examples/pytorch/question-answering . 
- Pokračujte v písaní práce.

Zásobník:

- Na dotrénovanie LLAMA alebo podobného modelu musíte použiť PEFT. https://www.theaidream.com/post/fine-tuning-large-language-models-llms-using-peft


Stretnutie 29.1.2024

Stav:

- Prezentácia je.
- Získané dáta z GymBeam. Selenium Scraper je veľmi pomalý, nevieme prečo.
- Vyskúšané ChatGPT API s dátami čo máme. Odpoveď je zatiaľ po anglicky.
- Na prevod z csv do json je použitá LLAMA.

Úlohy:

- Na vyhdonotenie je potrebné rozdeliť dáta na dve časti, trénovaciu a testovaciu. Testovacie dáta vynechajte z trénovania.  Sledujte čo generuje model a porovnajte to s tým čo je očakávané v dátach. Ako metriku porovnania použite ROUGE alebo BLEU.
- Výsledky dajte do tabuľky do práce.
- Pokračujte v písaní práce.
- Pokračujte v získavaní a príprave dát.

Zásobník:

- Na rovnakých dátach natrénujte "lokálny model" pomocou skriptov Huggingface (machine translation) - mt5-base, llama-7B-4bit . Musíte nainštalovať transformers zo zdrojákov. Musíte si vytvoriť nové virtuálne prostredie a najprv nainštalovať pytorch.
 

Stretnutie 15.12.2023

Stav:

- Napísané texty podľa pokynov. Experimenty ešte neboli vykonané.

Úlohy:

- Z webu získajte vhodnú sadu otázok a odpovedí. Uložte ju vo formáte json - jeden dokument na jede riadok. Využite Váš scraper. Ako zdroj skúste použiť Otázky zákazníkov z GymBeam. Uložte  - v jednom dokumente by mal byť informácie o produktem otázky aj odpovede. Ak sa to nepodarí, zamerajte sa na iný zdroj dát. Napríklad https://www.modrastrecha.sk/forum/ , alebo https://www.modrykonik.sk/forum.
- Pripravte dáta do vhodnej podoby a natrénujte generatívny model - ChatGPT, T5-SMALL, 
- Vyhoddnotte všetky modely, výsledky sumarizujte v tabuľkách. Experimenty opíšte do práce.
- Urobte si repozitár bp2024 na git.kemt.fei.tuke.sk. Skripty dávajte na git.


Stretnutie 21.11.2023

Stav:

- Napísaný text na tému Seq2Seq.
- Napísaný scraper pre získavanie dát z E shopu.

Úlohy:

- Skúste dotrénovať model ChatGPT. Využijeme kredity [Azure pre študentov](https://azureforeducation.microsoft.com/devtools) . Prihlásite sa ako študent do MAISU.  Prejdite si [tutoriál](https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/fine-tuning?tabs=turbo&pivots=programming-language-studio).  Dávajte pozor, aby ste si nevyčerpali študentské kredity.
- Zistite, ako funguje ChatGPT a ako ho dotrénovať. Prečítajte si niekoľko blogov a napíšte si poznámky. Použite aj odkazy na odborné články. 
- Zistite, ako vyhodnotiť dotrénovaný model. Ako funguje https://github.com/openai/evals ? Napíšte o tom poznánky.

Zásobník úloh:

- Na generovanie odpovedí použijeme jednoduchý model T5-small v HF transformers.
- Vytvorte trénovaciu databázu ktorá Vás zaujíma vo formáte ktorý je požadovaný. Druhá možnosť je využiť "Košické dáta". 
- Preštudujte si knihu https://d2l.ai/ a napíšte si z nej poznámky.
- Zistite ako funguje model T5 a model BART a napíšte o tom správu na 3 strany. Odborné články vyhľadajte na Google Scholar. Do správy zapíšte ktoré odborné články ste prečítali.
- Nainštalujte si prostredie Anaconda.
- Nainštalujte si knižnicu HF transformers, prejdite si základný tutoriál. 
- Prejdite si tutoriál https://huggingface.co/docs/transformers/tasks/summarization


# Bakalárska práca 2023

Téma: Oprava preklepov v slovenskom jazyku.

Súvisiaca dizertačná práca [Maroš Harahus](/students/2016/maros_harahus).

Cieľ: 

- Naštudovať si problematiku opravy preklepov a napísať prehľad aktuálnych metód.
- Vykonať jednoduchý experiment na automatickú opravu preklepov pomocou neurónovej siete.
- Naprogramovať webovú demo aplikáciu.

   
Stretnutie 28.9.2023

Stav:

- Nainštalovaná Anaconda, problém s CUDA.

Úlohy:

- Pokračujte v otvorených úlohách z minulého roka.
- Na inštalovanie Pytorch je potrebné nainštalovať najprv CUDa cez Anaconda.

 conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=10.2 -c pytorch
  
Nápad:

- Natrénovať chatbota pre pomoc zákazníkom. Aké trénovacie dáta a aký model použiť?

Stretnutie 29.9.2022


Úlohy:

- [ ] Prečítajte si článok "Survey of Automatic Spelling Correction" a napíšte z neho poznámky na cca 2 strany.
- [ ] Prečítajte si článok Comparison of recurrent neural networks for slovak punctuation restoration.
- [ ] Zistite, ako funguje neurónový strojový preklad. Prečítajte si niekoľko blogov a napíšte si poznámky na jednu stranu, uveďte aj odkazy na články. Kľúčové slovíčko je enkóder-dekóder architektúra.
- [x] Nainštalujte si systém Anaconda.
- [-] Nainštalujte si knižnicu Pytorch

Zásobník úloh:

- [ ] Nainštalujte si systém Fairseq
- [ ] Prejdite si aspoň jeden fairseq tutoriál, napr. https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html


Zásobník úloh:

- Vybrať dáta a urobiť experiment.
- naprogramovať demo.
z 2022-09-28 14:22:20 +00:00			`---`
			`title: Vladyslav Krupko`
			`published: true`
			`taxonomy:`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-10-05 08:12:07 +00:00			`category: [bp2024]`
zz 2022-09-29 12:30:28 +00:00			`tag: [spelling]`
z 2022-09-28 14:22:20 +00:00			`author: Daniel Hladek`
			`---`

			`rok začiatku štúdia: 2020`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-10-13 10:50:47 +00:00			`# Bakalárska práca 2024`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-12-20 10:35:31 +00:00
			`1. Napíšte prehľad existujúcich jazykových modelov pre generovanie slovenského jazyka.`
			`2. Získajte a pripravte korpus dát pre úlohu generovania odpovedí v slovenskom jazyku. Vyberte vhodný zdroj a pripravte ho do podoby vhodnej na trénovanie neurónových sietí. Sumarizujte získané dáta v tabuľke.`
			`3. Natrénujte neurónovú sieť pre úlohu generovania odpovede a vyhodnoťte výsledky.`
			`4. Vyhodnoťte experimenty, identifikujte slabé miesta a navrhnite vylepšenia.`


Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-10-13 10:50:47 +00:00			`Na Maise je vypísaná nová téma ohľadom "konverzačnej umelej inteligencie". Je potrebné čím skôr finalizovať tému aj praconvé úlohy.`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-11-21 08:48:45 +00:00			`Ciele:`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-10-13 10:50:47 +00:00
Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-11-21 08:48:45 +00:00			`- Dotrénovať ChatGPT alebo iný generatívny model pre vlastnú databázu otázok a odpovedí.`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-10-13 10:50:47 +00:00
Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-05-15 09:26:22 +00:00			`Stretnutie 15.5.2025`

			`Stav:`

			`- Rozpísaná práca`
			`- Experimenty sú pripravené (podrobne neviem).`

			`Úlohy:`

			`- Dajte prácu do šablóny a vypracujte ASAP.`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-05-15 09:27:43 +00:00			`- Do práce môžete dokresliť diagramy. Dôsledne citujte - uvádzajte referencie aj pre obrázky.`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-05-15 09:26:22 +00:00			`- Stiahnite si zadávací list a šablónu z ETD knižnice.`
			`- Zaregistrujte sa do knižnice na vytlačenie práce. Na to budete potrebovať titulný list a počet strán.`
			`- Pošlite vedúcemu na kontrolu čím skôr (do budúceho utorka).`
			`- Na vyhodnotenie generatívneho modelu použite metriku BLEU. Na to potrebujete očakávaný výstup modelu.`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-04-26 11:18:38 +00:00			`Stretnutie 26.4. 2024`

			`Stav:`

			`- Práca na dátach GymBeam. Scraper ide. Máme otázky o procese objednania.`
			`- Vyskúšané mt5, llama 2 7B, mixtral,`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-04-26 11:27:55 +00:00			`Úloha:`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-04-26 11:18:38 +00:00
Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-04-26 11:34:08 +00:00			`- Pripravte dáta na úlohu odpovede na otázku. V jednej jednotke by mala byť otázka, odpoveď a dokument kde sa nachádza odpoveď. Urobte niekoľko 100 jednotiek. Dáta rozdeľte na dve skupiny - trénovaciu aj testovaciu. Dáta dajte do podoby kompatibilnej s databázou sk-quad.`
			`- Ku Vašim dátam môžete primešať dáta zo SK QUAD.`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-04-26 11:39:46 +00:00			`- Naučte rôzne neurónové siete mt5base, Slovakbert, llama odpovedať na otázku a vyhodnnotte výsledky. Na quadro nainštaluje Anaconda.`
			`- Nainštalujte Pytorch, Transformers z repozitára. Použite screen alebo tmux na spustenie.Kartu vyberiete pomocou premennej prostredia CUDA_VISIBLE_DEVICES.`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-04-26 11:41:50 +00:00			`- Použite skripty z https://github.com/huggingface/transformers/tree/main/examples/pytorch/question-answering .`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-04-26 11:45:22 +00:00			`- Pokračujte v písaní práce.`

			`Zásobník:`

			`- Na dotrénovanie LLAMA alebo podobného modelu musíte použiť PEFT. https://www.theaidream.com/post/fine-tuning-large-language-models-llms-using-peft`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-04-26 11:18:38 +00:00
Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-01-29 09:51:44 +00:00			`Stretnutie 29.1.2024`

			`Stav:`

			`- Prezentácia je.`
			`- Získané dáta z GymBeam. Selenium Scraper je veľmi pomalý, nevieme prečo.`
			`- Vyskúšané ChatGPT API s dátami čo máme. Odpoveď je zatiaľ po anglicky.`
			`- Na prevod z csv do json je použitá LLAMA.`

			`Úlohy:`

			`- Na vyhdonotenie je potrebné rozdeliť dáta na dve časti, trénovaciu a testovaciu. Testovacie dáta vynechajte z trénovania. Sledujte čo generuje model a porovnajte to s tým čo je očakávané v dátach. Ako metriku porovnania použite ROUGE alebo BLEU.`
			`- Výsledky dajte do tabuľky do práce.`
			`- Pokračujte v písaní práce.`
			`- Pokračujte v získavaní a príprave dát.`

			`Zásobník:`

			`- Na rovnakých dátach natrénujte "lokálny model" pomocou skriptov Huggingface (machine translation) - mt5-base, llama-7B-4bit . Musíte nainštalovať transformers zo zdrojákov. Musíte si vytvoriť nové virtuálne prostredie a najprv nainštalovať pytorch.`



Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-12-15 11:56:50 +00:00			`Stretnutie 15.12.2023`

			`Stav:`

			`- Napísané texty podľa pokynov. Experimenty ešte neboli vykonané.`

			`Úlohy:`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2024-01-29 09:51:44 +00:00			`- Z webu získajte vhodnú sadu otázok a odpovedí. Uložte ju vo formáte json - jeden dokument na jede riadok. Využite Váš scraper. Ako zdroj skúste použiť Otázky zákazníkov z GymBeam. Uložte - v jednom dokumente by mal byť informácie o produktem otázky aj odpovede. Ak sa to nepodarí, zamerajte sa na iný zdroj dát. Napríklad https://www.modrastrecha.sk/forum/ , alebo https://www.modrykonik.sk/forum.`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-12-15 11:56:50 +00:00			`- Pripravte dáta do vhodnej podoby a natrénujte generatívny model - ChatGPT, T5-SMALL,`
			`- Vyhoddnotte všetky modely, výsledky sumarizujte v tabuľkách. Experimenty opíšte do práce.`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-12-15 12:13:39 +00:00			`- Urobte si repozitár bp2024 na git.kemt.fei.tuke.sk. Skripty dávajte na git.`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-12-15 11:56:50 +00:00


Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-11-21 08:44:07 +00:00			`Stretnutie 21.11.2023`

			`Stav:`

			`- Napísaný text na tému Seq2Seq.`
			`- Napísaný scraper pre získavanie dát z E shopu.`

			`Úlohy:`

			`- Skúste dotrénovať model ChatGPT. Využijeme kredity [Azure pre študentov](https://azureforeducation.microsoft.com/devtools) . Prihlásite sa ako študent do MAISU. Prejdite si [tutoriál](https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/fine-tuning?tabs=turbo&pivots=programming-language-studio). Dávajte pozor, aby ste si nevyčerpali študentské kredity.`
			`- Zistite, ako funguje ChatGPT a ako ho dotrénovať. Prečítajte si niekoľko blogov a napíšte si poznámky. Použite aj odkazy na odborné články.`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-11-21 08:48:45 +00:00			`- Zistite, ako vyhodnotiť dotrénovaný model. Ako funguje https://github.com/openai/evals ? Napíšte o tom poznánky.`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-11-21 08:44:07 +00:00
			`Zásobník úloh:`

			`- Na generovanie odpovedí použijeme jednoduchý model T5-small v HF transformers.`
			`- Vytvorte trénovaciu databázu ktorá Vás zaujíma vo formáte ktorý je požadovaný. Druhá možnosť je využiť "Košické dáta".`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-11-21 08:48:45 +00:00			`- Preštudujte si knihu https://d2l.ai/ a napíšte si z nej poznámky.`
			`- Zistite ako funguje model T5 a model BART a napíšte o tom správu na 3 strany. Odborné články vyhľadajte na Google Scholar. Do správy zapíšte ktoré odborné články ste prečítali.`
			`- Nainštalujte si prostredie Anaconda.`
			`- Nainštalujte si knižnicu HF transformers, prejdite si základný tutoriál.`
			`- Prejdite si tutoriál https://huggingface.co/docs/transformers/tasks/summarization`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-10-13 10:50:47 +00:00
z 2022-09-28 14:22:20 +00:00			`# Bakalárska práca 2023`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2022-09-29 11:57:55 +00:00			`Téma: Oprava preklepov v slovenskom jazyku.`

zz 2022-09-29 12:30:28 +00:00			`Súvisiaca dizertačná práca [Maroš Harahus](/students/2016/maros_harahus).`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2022-09-29 11:57:55 +00:00			`Cieľ:`

			`- Naštudovať si problematiku opravy preklepov a napísať prehľad aktuálnych metód.`
			`- Vykonať jednoduchý experiment na automatickú opravu preklepov pomocou neurónovej siete.`
			`- Naprogramovať webovú demo aplikáciu.`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-09-28 09:33:10 +00:00

Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-09-28 09:28:18 +00:00			`Stretnutie 28.9.2023`

			`Stav:`

			`- Nainštalovaná Anaconda, problém s CUDA.`

			`Úlohy:`

			`- Pokračujte v otvorených úlohách z minulého roka.`
			`- Na inštalovanie Pytorch je potrebné nainštalovať najprv CUDa cez Anaconda.`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-09-28 09:33:10 +00:00			`conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=10.2 -c pytorch`

			`Nápad:`

			`- Natrénovať chatbota pre pomoc zákazníkom. Aké trénovacie dáta a aký model použiť?`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-09-28 09:28:18 +00:00
zz 2022-09-29 12:30:28 +00:00			`Stretnutie 29.9.2022`


Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-09-28 09:28:18 +00:00
Update 'pages/students/2020/vladyslav_krupko/README.md' 2022-09-29 12:15:20 +00:00			`Úlohy:`

Update 'pages/students/2020/vladyslav_krupko/README.md' 2023-09-28 09:28:18 +00:00			`- [ ] Prečítajte si článok "Survey of Automatic Spelling Correction" a napíšte z neho poznámky na cca 2 strany.`
			`- [ ] Prečítajte si článok Comparison of recurrent neural networks for slovak punctuation restoration.`
			`- [ ] Zistite, ako funguje neurónový strojový preklad. Prečítajte si niekoľko blogov a napíšte si poznámky na jednu stranu, uveďte aj odkazy na články. Kľúčové slovíčko je enkóder-dekóder architektúra.`
			`- [x] Nainštalujte si systém Anaconda.`
			`- [-] Nainštalujte si knižnicu Pytorch`

			`Zásobník úloh:`

			`- [ ] Nainštalujte si systém Fairseq`
			`- [ ] Prejdite si aspoň jeden fairseq tutoriál, napr. https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2022-09-29 12:19:45 +00:00

			`Zásobník úloh:`

			`- Vybrať dáta a urobiť experiment.`
			`- naprogramovať demo.`
Update 'pages/students/2020/vladyslav_krupko/README.md' 2022-09-29 12:15:20 +00:00

Update 'pages/students/2020/vladyslav_krupko/README.md' 2022-09-29 11:57:55 +00:00