--- title: Vladyslav Krupko published: true taxonomy: category: [bp2024] tag: [spelling] author: Daniel Hladek --- rok začiatku štúdia: 2020 # Bakalárska práca 2024 1. Napíšte prehľad existujúcich jazykových modelov pre generovanie slovenského jazyka. 2. Získajte a pripravte korpus dát pre úlohu generovania odpovedí v slovenskom jazyku. Vyberte vhodný zdroj a pripravte ho do podoby vhodnej na trénovanie neurónových sietí. Sumarizujte získané dáta v tabuľke. 3. Natrénujte neurónovú sieť pre úlohu generovania odpovede a vyhodnoťte výsledky. 4. Vyhodnoťte experimenty, identifikujte slabé miesta a navrhnite vylepšenia. Na Maise je vypísaná nová téma ohľadom "konverzačnej umelej inteligencie". Je potrebné čím skôr finalizovať tému aj praconvé úlohy. Ciele: - Dotrénovať ChatGPT alebo iný generatívny model pre vlastnú databázu otázok a odpovedí. Stretnutie 26.4. 2024 Stav: - Práca na dátach GymBeam. Scraper ide. Máme otázky o procese objednania. - Vyskúšané mt5, llama 2 7B, mixtral, Úloha: - Pripravte dáta na úlohu odpovede na otázku. V jednej jednotke by mala byť otázka, odpoveď a dokument kde sa nachádza odpoveď. Urobte niekoľko 100 jednotiek. Dáta rozdeľte na dve skupiny - trénovaciu aj testovaciu. Dáta dajte do podoby kompatibilnej s databázou sk-quad. - Ku Vašim dátam môžete primešať dáta zo SK QUAD. - Naučte rôzne neurónové siete mt5base, Slovakbert, llama odpovedať na otázku a vyhodnnotte výsledky. Stretnutie 29.1.2024 Stav: - Prezentácia je. - Získané dáta z GymBeam. Selenium Scraper je veľmi pomalý, nevieme prečo. - Vyskúšané ChatGPT API s dátami čo máme. Odpoveď je zatiaľ po anglicky. - Na prevod z csv do json je použitá LLAMA. Úlohy: - Na vyhdonotenie je potrebné rozdeliť dáta na dve časti, trénovaciu a testovaciu. Testovacie dáta vynechajte z trénovania. Sledujte čo generuje model a porovnajte to s tým čo je očakávané v dátach. Ako metriku porovnania použite ROUGE alebo BLEU. - Výsledky dajte do tabuľky do práce. - Pokračujte v písaní práce. - Pokračujte v získavaní a príprave dát. Zásobník: - Na rovnakých dátach natrénujte "lokálny model" pomocou skriptov Huggingface (machine translation) - mt5-base, llama-7B-4bit . Musíte nainštalovať transformers zo zdrojákov. Musíte si vytvoriť nové virtuálne prostredie a najprv nainštalovať pytorch. Stretnutie 15.12.2023 Stav: - Napísané texty podľa pokynov. Experimenty ešte neboli vykonané. Úlohy: - Z webu získajte vhodnú sadu otázok a odpovedí. Uložte ju vo formáte json - jeden dokument na jede riadok. Využite Váš scraper. Ako zdroj skúste použiť Otázky zákazníkov z GymBeam. Uložte - v jednom dokumente by mal byť informácie o produktem otázky aj odpovede. Ak sa to nepodarí, zamerajte sa na iný zdroj dát. Napríklad https://www.modrastrecha.sk/forum/ , alebo https://www.modrykonik.sk/forum. - Pripravte dáta do vhodnej podoby a natrénujte generatívny model - ChatGPT, T5-SMALL, - Vyhoddnotte všetky modely, výsledky sumarizujte v tabuľkách. Experimenty opíšte do práce. - Urobte si repozitár bp2024 na git.kemt.fei.tuke.sk. Skripty dávajte na git. Stretnutie 21.11.2023 Stav: - Napísaný text na tému Seq2Seq. - Napísaný scraper pre získavanie dát z E shopu. Úlohy: - Skúste dotrénovať model ChatGPT. Využijeme kredity [Azure pre študentov](https://azureforeducation.microsoft.com/devtools) . Prihlásite sa ako študent do MAISU. Prejdite si [tutoriál](https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/fine-tuning?tabs=turbo&pivots=programming-language-studio). Dávajte pozor, aby ste si nevyčerpali študentské kredity. - Zistite, ako funguje ChatGPT a ako ho dotrénovať. Prečítajte si niekoľko blogov a napíšte si poznámky. Použite aj odkazy na odborné články. - Zistite, ako vyhodnotiť dotrénovaný model. Ako funguje https://github.com/openai/evals ? Napíšte o tom poznánky. Zásobník úloh: - Na generovanie odpovedí použijeme jednoduchý model T5-small v HF transformers. - Vytvorte trénovaciu databázu ktorá Vás zaujíma vo formáte ktorý je požadovaný. Druhá možnosť je využiť "Košické dáta". - Preštudujte si knihu https://d2l.ai/ a napíšte si z nej poznámky. - Zistite ako funguje model T5 a model BART a napíšte o tom správu na 3 strany. Odborné články vyhľadajte na Google Scholar. Do správy zapíšte ktoré odborné články ste prečítali. - Nainštalujte si prostredie Anaconda. - Nainštalujte si knižnicu HF transformers, prejdite si základný tutoriál. - Prejdite si tutoriál https://huggingface.co/docs/transformers/tasks/summarization # Bakalárska práca 2023 Téma: Oprava preklepov v slovenskom jazyku. Súvisiaca dizertačná práca [Maroš Harahus](/students/2016/maros_harahus). Cieľ: - Naštudovať si problematiku opravy preklepov a napísať prehľad aktuálnych metód. - Vykonať jednoduchý experiment na automatickú opravu preklepov pomocou neurónovej siete. - Naprogramovať webovú demo aplikáciu. Stretnutie 28.9.2023 Stav: - Nainštalovaná Anaconda, problém s CUDA. Úlohy: - Pokračujte v otvorených úlohách z minulého roka. - Na inštalovanie Pytorch je potrebné nainštalovať najprv CUDa cez Anaconda. conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=10.2 -c pytorch Nápad: - Natrénovať chatbota pre pomoc zákazníkom. Aké trénovacie dáta a aký model použiť? Stretnutie 29.9.2022 Úlohy: - [ ] Prečítajte si článok "Survey of Automatic Spelling Correction" a napíšte z neho poznámky na cca 2 strany. - [ ] Prečítajte si článok Comparison of recurrent neural networks for slovak punctuation restoration. - [ ] Zistite, ako funguje neurónový strojový preklad. Prečítajte si niekoľko blogov a napíšte si poznámky na jednu stranu, uveďte aj odkazy na články. Kľúčové slovíčko je enkóder-dekóder architektúra. - [x] Nainštalujte si systém Anaconda. - [-] Nainštalujte si knižnicu Pytorch Zásobník úloh: - [ ] Nainštalujte si systém Fairseq - [ ] Prejdite si aspoň jeden fairseq tutoriál, napr. https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html Zásobník úloh: - Vybrať dáta a urobiť experiment. - naprogramovať demo.