213 lines
6.8 KiB
Markdown
213 lines
6.8 KiB
Markdown
---
|
|
title: Dávid Omasta
|
|
published: true
|
|
taxonomy:
|
|
category: [dp2023,dp2024]
|
|
tag: [lm]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
Začiatok štúdia: 2018
|
|
|
|
Súvisiace stránky:
|
|
|
|
- [Question Answering](/topics/question) - interný projekt
|
|
- Jozef Olekšák
|
|
- Matej Čarňanský (BERT)
|
|
- Ondrej Megela
|
|
|
|
# Diplomová práca 2024
|
|
|
|
Vedúci: Ján Staš
|
|
|
|
Návrh na názov:
|
|
|
|
Generatívne modely slovenského jazyka
|
|
|
|
Návrh na zadanie DP:
|
|
|
|
- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov.
|
|
- Vypracujte prehľad slovenských a multilinguálnych generatívnych jazykových modelov.
|
|
- Navrhnite experiment, pri ktorom bude model generovať odpovede na zadané otázky a kontext.
|
|
- Analyzujte výsledky experimentu vhodným spôsobom a identifikujte možné zlepšenia.
|
|
|
|
Ciele:
|
|
|
|
- Pripraviť demo.
|
|
- Pripravť vedecký článok z DP.
|
|
|
|
Stretnutie 8.12.
|
|
|
|
Stav:
|
|
|
|
- Urobený Dockerfile a compose.
|
|
- Pridaný experiment s mT5.
|
|
- Práca na teoretickej časti.
|
|
- Vyskúšaná LLAMA na idoc aj mt5-base ale nejde kvôli GPU
|
|
|
|
Úlohy:
|
|
|
|
- Pokračujte v písomnej práci. Výsledky experiemntov opíšte a dajte do tabuliek.
|
|
- Dokončite DEMOZ
|
|
- pre porovnanie, vyskúšajte dotrénovať mt5 na dátovej sade pre iný jazyk. Angličtina - squad, Poľský jazyk clarin-pl/poqaud .
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
- Keď bude k dispozícii, vyskúšajte nový slovenský t5 model.
|
|
|
|
|
|
|
|
Stretnutie 10.11
|
|
|
|
Stav:
|
|
|
|
- DP je rozpísaná. Existuje draft.
|
|
- Vypracovaný experiment s Slovak t5 small
|
|
|
|
Úlohy:
|
|
|
|
- [-] Opravte DP podľa pokynov
|
|
- [x] Pridajte experiment s mt5 small .https://huggingface.co/google/mt5-small
|
|
- [-] Pripravte demo na nasadenie. Zmente Windows kontajner na Linux.
|
|
- [x] zdrojáky dajte na kemt GIT
|
|
|
|
Zásobník úloh:
|
|
|
|
- [-] Skúste generovanie odpovedí s modelom LLAMA alebo podobným.
|
|
- [x] Skúste generovanie odpovedí s "base" modelmi na školskom servri.
|
|
|
|
Stretnutie 6.10
|
|
|
|
Stav:
|
|
|
|
- Práca na Dockerfile so streamlit
|
|
|
|
Úlohy:
|
|
|
|
- Pozrieť a pracovať na minulých otvorených úlohách.
|
|
- Pripraviť draft na prečítanie.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Vyskúšať aj iné generatívne modely a pripraviť z nich experimenty.
|
|
- Pripraviť a vyskúšať aj iné dátové množiny.
|
|
|
|
|
|
# Diplomová práca 2023
|
|
|
|
Téma: Dotrénovanie slovenského generatívneho jazykového modelu.
|
|
|
|
Vedúci: Ján Staš
|
|
|
|
Návrh na názov:
|
|
|
|
Generatívne modely slovenského jazyka
|
|
|
|
Návrh na zadanie DP:
|
|
|
|
- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov.
|
|
- Vypracujte prehľad slovenských a multilinguálnych generatívnych jazykových modelov.
|
|
- Navrhnite experiment, pri ktorom bude model generovať odpovede na zadané otázky a kontext.
|
|
- Analyzujte výsledky experimentu vhodným spôsobom a identifikujte možné zlepšenia.
|
|
|
|
Ciele na zimný semester:
|
|
|
|
Praktické:
|
|
|
|
- Rozbehajte proces dotrénovania jazykových modelov pomocou knižnice Huggingface Transformers
|
|
- Vyberte alebo vytvorte vhodnú dátovú množinu ktorá bude obsahovať slovenské dialógu.
|
|
- Vyskúšajte slovenský generatívny model GPT a dotrénujte ho pre použitie v dialógovom systéme.
|
|
- Vytvorte demonštračnú aplikáciu.
|
|
|
|
Teoretické:
|
|
|
|
- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán).
|
|
- Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán).
|
|
|
|
Stretnutie 25.4.
|
|
|
|
Stav:
|
|
|
|
- Napísaný draft práce
|
|
- Pripravené demo s generovaním otázok pomocou t5, huggingface, streamlit, fastapi.
|
|
- Git je momentálne na https://git.kpi.fei.tuke.sk/do867bc
|
|
|
|
Úlohy:
|
|
|
|
- Pracovať na textovej časti podľa poznámok - zlepšiť text, štruktúru a úpravu.
|
|
- Vytvoriť repozitár na git.kemt.fei.tuke.sk a dajte tam zdrojáky
|
|
- Finalizovať repozitár s demom. Pridajte odkazy na modely, modely nedávajte na GIT. Na git dajte zdrojové kódy v Python a Notebooky. Pridajte README s opisom kódov a návodom na inštaláciu.
|
|
- Skontrolujte výsledky ROUGE, vyzerajú podozrivo.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Vytvorte Dockerfile
|
|
|
|
|
|
Stretnutie 24.2.2023
|
|
|
|
Stav:
|
|
|
|
|
|
- Rozbehaný notebook na dotrénovanie slovenského t5 na úlohu generatívneho question answering.
|
|
|
|
|
|
Úlohy:
|
|
|
|
- [x] Dajte notebook na GIT
|
|
- [x] Vyhodnnotte presnosť generovania odpovede pomocou P-R-F1 pre celú dev množinu.
|
|
- [-] Pokračujte v písaní textu DP. Opíšte slovenský QA dataset. Slovne opíšte experiment. Aký postup ste použili, aké dáta, aké modely.
|
|
- [x] Zopakujte experiment pre model mt5-small, mt5-base. Výsledky dajte do tabuľky.
|
|
|
|
|
|
Stretnutie 24.11
|
|
|
|
Stav:
|
|
|
|
- nainštalované prostredie na idoc, spustený hf skript run_generation.py
|
|
- prečítané články.
|
|
|
|
Úlohy:
|
|
|
|
- [-] písomne vysvetlite ako funguje neurónová sieť typu Transformer . Uveďte odkazy na odborné články.
|
|
- [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART.
|
|
- Vyskúšajte tento skript run_clm.py : https://github.com/huggingface/transformers/tree/main/examples/pytorch/language-modeling. Pozrite si príklad na run_mlm.py v repozitári https://git.kemt.fei.tuke.sk/dano/bert-train v adresári hugging/roberta-train
|
|
- Pozrite si tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b
|
|
- Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
|
|
- Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.
|
|
- Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)
|
|
|
|
|
|
Stretnutie 14.10.
|
|
|
|
Stav:
|
|
|
|
- Na vlastnom počítači rozbehané Anaconda, Pytorch a CUDA.
|
|
- Prečítané články.
|
|
|
|
Úlohy:
|
|
|
|
- Pokračovať.
|
|
|
|
Stretnutie 7.10.
|
|
|
|
Stav:
|
|
|
|
- Obznámený s Google Colab. Vyskúšané tutoriály BERT text classification,
|
|
|
|
Úlohy:
|
|
|
|
- [-] Prečítajte si ako funguje neurónová sieť typu Transformer a [ ] písomne to vysvetlite. Uveďte odkazy na odborné články.
|
|
- [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART.
|
|
- [x] Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers. Použite server idoc.
|
|
- [x] Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Prečítajte si ako funguje neurónová sieť typu GPT a písomne to vysvetlite, Uveďte odkazy na odborné články.
|
|
- Vyskúšajte tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b
|
|
- Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
|
|
- Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.
|
|
- Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)
|