History

dano 82a789f03d Update 'pages/students/2020/vladyslav_krupko/README.md'		2024-05-15 09:27:43 +00:00
..
README.md	Update 'pages/students/2020/vladyslav_krupko/README.md'	2024-05-15 09:27:43 +00:00

README.md

title

published

taxonomy

Vladyslav Krupko

true

Bakalárska práca 2024

Napíšte prehľad existujúcich jazykových modelov pre generovanie slovenského jazyka.
Získajte a pripravte korpus dát pre úlohu generovania odpovedí v slovenskom jazyku. Vyberte vhodný zdroj a pripravte ho do podoby vhodnej na trénovanie neurónových sietí. Sumarizujte získané dáta v tabuľke.
Natrénujte neurónovú sieť pre úlohu generovania odpovede a vyhodnoťte výsledky.
Vyhodnoťte experimenty, identifikujte slabé miesta a navrhnite vylepšenia.

Na Maise je vypísaná nová téma ohľadom "konverzačnej umelej inteligencie". Je potrebné čím skôr finalizovať tému aj praconvé úlohy.

Ciele:

Dotrénovať ChatGPT alebo iný generatívny model pre vlastnú databázu otázok a odpovedí.

Stretnutie 15.5.2025

Stav:

Rozpísaná práca
Experimenty sú pripravené (podrobne neviem).

Úlohy:

Dajte prácu do šablóny a vypracujte ASAP.
Do práce môžete dokresliť diagramy. Dôsledne citujte - uvádzajte referencie aj pre obrázky.
Stiahnite si zadávací list a šablónu z ETD knižnice.
Zaregistrujte sa do knižnice na vytlačenie práce. Na to budete potrebovať titulný list a počet strán.
Pošlite vedúcemu na kontrolu čím skôr (do budúceho utorka).
Na vyhodnotenie generatívneho modelu použite metriku BLEU. Na to potrebujete očakávaný výstup modelu.

Stretnutie 26.4. 2024

Stav:

Práca na dátach GymBeam. Scraper ide. Máme otázky o procese objednania.
Vyskúšané mt5, llama 2 7B, mixtral,

Úloha:

Pripravte dáta na úlohu odpovede na otázku. V jednej jednotke by mala byť otázka, odpoveď a dokument kde sa nachádza odpoveď. Urobte niekoľko 100 jednotiek. Dáta rozdeľte na dve skupiny - trénovaciu aj testovaciu. Dáta dajte do podoby kompatibilnej s databázou sk-quad.
Ku Vašim dátam môžete primešať dáta zo SK QUAD.
Naučte rôzne neurónové siete mt5base, Slovakbert, llama odpovedať na otázku a vyhodnnotte výsledky. Na quadro nainštaluje Anaconda.
Nainštalujte Pytorch, Transformers z repozitára. Použite screen alebo tmux na spustenie.Kartu vyberiete pomocou premennej prostredia CUDA_VISIBLE_DEVICES.
Použite skripty z https://github.com/huggingface/transformers/tree/main/examples/pytorch/question-answering .
Pokračujte v písaní práce.

Zásobník:

Na dotrénovanie LLAMA alebo podobného modelu musíte použiť PEFT. https://www.theaidream.com/post/fine-tuning-large-language-models-llms-using-peft

Stretnutie 29.1.2024

Stav:

Prezentácia je.
Získané dáta z GymBeam. Selenium Scraper je veľmi pomalý, nevieme prečo.
Vyskúšané ChatGPT API s dátami čo máme. Odpoveď je zatiaľ po anglicky.
Na prevod z csv do json je použitá LLAMA.

Úlohy:

Na vyhdonotenie je potrebné rozdeliť dáta na dve časti, trénovaciu a testovaciu. Testovacie dáta vynechajte z trénovania. Sledujte čo generuje model a porovnajte to s tým čo je očakávané v dátach. Ako metriku porovnania použite ROUGE alebo BLEU.
Výsledky dajte do tabuľky do práce.
Pokračujte v písaní práce.
Pokračujte v získavaní a príprave dát.

Zásobník:

Na rovnakých dátach natrénujte "lokálny model" pomocou skriptov Huggingface (machine translation) - mt5-base, llama-7B-4bit . Musíte nainštalovať transformers zo zdrojákov. Musíte si vytvoriť nové virtuálne prostredie a najprv nainštalovať pytorch.

Stretnutie 15.12.2023

Stav:

Napísané texty podľa pokynov. Experimenty ešte neboli vykonané.

Úlohy:

Z webu získajte vhodnú sadu otázok a odpovedí. Uložte ju vo formáte json - jeden dokument na jede riadok. Využite Váš scraper. Ako zdroj skúste použiť Otázky zákazníkov z GymBeam. Uložte - v jednom dokumente by mal byť informácie o produktem otázky aj odpovede. Ak sa to nepodarí, zamerajte sa na iný zdroj dát. Napríklad https://www.modrastrecha.sk/forum/ , alebo https://www.modrykonik.sk/forum.
Pripravte dáta do vhodnej podoby a natrénujte generatívny model - ChatGPT, T5-SMALL,
Vyhoddnotte všetky modely, výsledky sumarizujte v tabuľkách. Experimenty opíšte do práce.
Urobte si repozitár bp2024 na git.kemt.fei.tuke.sk. Skripty dávajte na git.

Stretnutie 21.11.2023

Stav:

Napísaný text na tému Seq2Seq.
Napísaný scraper pre získavanie dát z E shopu.

Úlohy:

Skúste dotrénovať model ChatGPT. Využijeme kredity Azure pre študentov . Prihlásite sa ako študent do MAISU. Prejdite si tutoriál. Dávajte pozor, aby ste si nevyčerpali študentské kredity.
Zistite, ako funguje ChatGPT a ako ho dotrénovať. Prečítajte si niekoľko blogov a napíšte si poznámky. Použite aj odkazy na odborné články.
Zistite, ako vyhodnotiť dotrénovaný model. Ako funguje https://github.com/openai/evals ? Napíšte o tom poznánky.

Zásobník úloh:

Na generovanie odpovedí použijeme jednoduchý model T5-small v HF transformers.
Vytvorte trénovaciu databázu ktorá Vás zaujíma vo formáte ktorý je požadovaný. Druhá možnosť je využiť "Košické dáta".
Preštudujte si knihu https://d2l.ai/ a napíšte si z nej poznámky.
Zistite ako funguje model T5 a model BART a napíšte o tom správu na 3 strany. Odborné články vyhľadajte na Google Scholar. Do správy zapíšte ktoré odborné články ste prečítali.
Nainštalujte si prostredie Anaconda.
Nainštalujte si knižnicu HF transformers, prejdite si základný tutoriál.
Prejdite si tutoriál https://huggingface.co/docs/transformers/tasks/summarization

Bakalárska práca 2023

Téma: Oprava preklepov v slovenskom jazyku.

Súvisiaca dizertačná práca Maroš Harahus.

Cieľ:

Naštudovať si problematiku opravy preklepov a napísať prehľad aktuálnych metód.
Vykonať jednoduchý experiment na automatickú opravu preklepov pomocou neurónovej siete.
Naprogramovať webovú demo aplikáciu.

Stretnutie 28.9.2023

Stav:

Nainštalovaná Anaconda, problém s CUDA.

Úlohy:

Pokračujte v otvorených úlohách z minulého roka.
Na inštalovanie Pytorch je potrebné nainštalovať najprv CUDa cez Anaconda.

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=10.2 -c pytorch

Nápad:

Natrénovať chatbota pre pomoc zákazníkom. Aké trénovacie dáta a aký model použiť?

Stretnutie 29.9.2022

Úlohy:

Prečítajte si článok "Survey of Automatic Spelling Correction" a napíšte z neho poznámky na cca 2 strany.
Prečítajte si článok Comparison of recurrent neural networks for slovak punctuation restoration.
Zistite, ako funguje neurónový strojový preklad. Prečítajte si niekoľko blogov a napíšte si poznámky na jednu stranu, uveďte aj odkazy na články. Kľúčové slovíčko je enkóder-dekóder architektúra.
Nainštalujte si systém Anaconda.
[-] Nainštalujte si knižnicu Pytorch

Zásobník úloh:

Nainštalujte si systém Fairseq
Prejdite si aspoň jeden fairseq tutoriál, napr. https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html

Zásobník úloh:

Vybrať dáta a urobiť experiment.
naprogramovať demo.