---
title: Dávid Omasta
published: true
taxonomy:
    category: [dp2023,dp2024]
    tag: [lm]
    author: Daniel Hladek
---

Začiatok štúdia: 2018

Súvisiace stránky:

- [Question Answering](/topics/question) - interný projekt
- Jozef Olekšák
- Matej Čarňanský (BERT)
- Ondrej Megela

# Diplomová práca 2024

Vedúci: Ján Staš

Návrh na názov:

Generatívne modely slovenského jazyka

Návrh na zadanie DP:

- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov.
- Vypracujte prehľad slovenských a multilinguálnych generatívnych jazykových modelov.
- Navrhnite experiment, pri ktorom bude model generovať odpovede na zadané otázky a kontext.
- Analyzujte výsledky experimentu vhodným spôsobom a identifikujte možné zlepšenia.


Ciele:

- Pripraviť demo.
- Pripravť vedecký článok z DP.

Stretnutie 6.10

Stav:

- Práca na Dockerfile so streamlit

Úlohy:

- Pozrieť a pracovať na minulých otvorených úlohách.
- Pripraviť draft na prečítanie.

Zásobník úloh:

- Vyskúšať aj iné generatívne modely a pripraviť z nich experimenty.
- Pripraviť a vyskúšať aj iné dátové množiny. 


# Diplomová práca 2023

Téma: Dotrénovanie slovenského generatívneho jazykového modelu.

Vedúci: Ján Staš

Návrh na názov:

Generatívne modely slovenského jazyka

Návrh na zadanie DP:

- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov.
- Vypracujte prehľad slovenských a multilinguálnych generatívnych jazykových modelov.
- Navrhnite experiment, pri ktorom bude model generovať odpovede na zadané otázky a kontext.
- Analyzujte výsledky experimentu vhodným spôsobom a identifikujte možné zlepšenia.

Ciele na zimný semester:

Praktické:

- Rozbehajte proces dotrénovania jazykových modelov pomocou knižnice Huggingface Transformers
- Vyberte alebo vytvorte vhodnú dátovú množinu ktorá bude obsahovať slovenské dialógu.
- Vyskúšajte slovenský generatívny model GPT a dotrénujte ho pre použitie v dialógovom systéme.
- Vytvorte demonštračnú aplikáciu.

Teoretické:

- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán).
- Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán).

Stretnutie 25.4.

Stav:

- Napísaný draft práce
- Pripravené demo s generovaním otázok pomocou t5, huggingface, streamlit, fastapi.
- Git je momentálne na https://git.kpi.fei.tuke.sk/do867bc

Úlohy:

- Pracovať na textovej časti podľa poznámok - zlepšiť text, štruktúru a úpravu.
- Vytvoriť repozitár na git.kemt.fei.tuke.sk a dajte tam zdrojáky 
- Finalizovať repozitár s demom. Pridajte odkazy na modely, modely nedávajte na GIT. Na git dajte zdrojové kódy v Python a Notebooky. Pridajte README s opisom kódov a návodom na inštaláciu.
- Skontrolujte výsledky ROUGE, vyzerajú podozrivo.

Zásobník úloh:

- Vytvorte Dockerfile


Stretnutie 24.2.2023

Stav:


- Rozbehaný notebook na dotrénovanie slovenského t5 na úlohu generatívneho question answering.


Úlohy:

- [x] Dajte notebook na GIT
- [x] Vyhodnnotte presnosť generovania odpovede pomocou P-R-F1 pre celú dev množinu.
- [-] Pokračujte v písaní textu DP. Opíšte slovenský QA dataset.  Slovne opíšte experiment.  Aký postup ste použili, aké dáta, aké modely.
- [x] Zopakujte experiment pre model mt5-small, mt5-base. Výsledky dajte do tabuľky.


Stretnutie 24.11

Stav:

- nainštalované prostredie na idoc, spustený hf skript run_generation.py 
- prečítané články.

Úlohy:

- [-] písomne  vysvetlite  ako funguje neurónová sieť typu Transformer .  Uveďte odkazy na odborné články.
- [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART.
- Vyskúšajte tento skript run_clm.py : https://github.com/huggingface/transformers/tree/main/examples/pytorch/language-modeling. Pozrite si príklad na run_mlm.py v repozitári https://git.kemt.fei.tuke.sk/dano/bert-train v adresári hugging/roberta-train
- Pozrite si tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b
- Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
- Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.
- Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)


Stretnutie 14.10.

Stav:

- Na vlastnom počítači rozbehané Anaconda, Pytorch a CUDA.
- Prečítané články.

Úlohy:

- Pokračovať.

Stretnutie 7.10.

Stav:

- Obznámený s Google Colab. Vyskúšané tutoriály BERT text classification,  

Úlohy:

- [-] Prečítajte si ako funguje neurónová sieť typu Transformer a  [ ] písomne to vysvetlite.  Uveďte odkazy na odborné články.
- [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART.
- [x] Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers.  Použite server idoc.
- [x] Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation.

Zásobník úloh:

- Prečítajte si ako funguje neurónová sieť typu GPT a písomne to vysvetlite, Uveďte odkazy na odborné články.
- Vyskúšajte tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b
- Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
- Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.
- Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)