--- title: Dávid Omasta published: true taxonomy: category: [dp2023,dp2024] tag: [lm] author: Daniel Hladek --- Začiatok štúdia: 2018 Súvisiace stránky: - [Question Answering](/topics/question) - interný projekt - Jozef Olekšák - Matej Čarňanský (BERT) - Ondrej Megela # Diplomová práca 2024 Vedúci: Ján Staš Návrh na názov: Generatívne modely slovenského jazyka Návrh na zadanie DP: - Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov. - Vypracujte prehľad slovenských a multilinguálnych generatívnych jazykových modelov. - Navrhnite experiment, pri ktorom bude model generovať odpovede na zadané otázky a kontext. - Analyzujte výsledky experimentu vhodným spôsobom a identifikujte možné zlepšenia. Ciele: - Pripraviť demo. - Pripravť vedecký článok z DP. Stretnutie 10.11 Stav: - DP je rozpísaná. Existuje draft. - Vypracovaný experiment s Slovak t5 small Úlohy: - Opravte DP podľa pokynov - Pridajte experiment s mt5 small .https://huggingface.co/google/mt5-small - Pripravte demo na nasadenie. Zmente Windows kontajner na Linux. Zásobník úloh: - Skúste generovanie odpovedí s modelom LLAMA alebo podobným. - Skúste generovanie odpovedí s "base" modelmi na školskom servri. Stretnutie 6.10 Stav: - Práca na Dockerfile so streamlit Úlohy: - Pozrieť a pracovať na minulých otvorených úlohách. - Pripraviť draft na prečítanie. Zásobník úloh: - Vyskúšať aj iné generatívne modely a pripraviť z nich experimenty. - Pripraviť a vyskúšať aj iné dátové množiny. # Diplomová práca 2023 Téma: Dotrénovanie slovenského generatívneho jazykového modelu. Vedúci: Ján Staš Návrh na názov: Generatívne modely slovenského jazyka Návrh na zadanie DP: - Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov. - Vypracujte prehľad slovenských a multilinguálnych generatívnych jazykových modelov. - Navrhnite experiment, pri ktorom bude model generovať odpovede na zadané otázky a kontext. - Analyzujte výsledky experimentu vhodným spôsobom a identifikujte možné zlepšenia. Ciele na zimný semester: Praktické: - Rozbehajte proces dotrénovania jazykových modelov pomocou knižnice Huggingface Transformers - Vyberte alebo vytvorte vhodnú dátovú množinu ktorá bude obsahovať slovenské dialógu. - Vyskúšajte slovenský generatívny model GPT a dotrénujte ho pre použitie v dialógovom systéme. - Vytvorte demonštračnú aplikáciu. Teoretické: - Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán). - Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán). Stretnutie 25.4. Stav: - Napísaný draft práce - Pripravené demo s generovaním otázok pomocou t5, huggingface, streamlit, fastapi. - Git je momentálne na https://git.kpi.fei.tuke.sk/do867bc Úlohy: - Pracovať na textovej časti podľa poznámok - zlepšiť text, štruktúru a úpravu. - Vytvoriť repozitár na git.kemt.fei.tuke.sk a dajte tam zdrojáky - Finalizovať repozitár s demom. Pridajte odkazy na modely, modely nedávajte na GIT. Na git dajte zdrojové kódy v Python a Notebooky. Pridajte README s opisom kódov a návodom na inštaláciu. - Skontrolujte výsledky ROUGE, vyzerajú podozrivo. Zásobník úloh: - Vytvorte Dockerfile Stretnutie 24.2.2023 Stav: - Rozbehaný notebook na dotrénovanie slovenského t5 na úlohu generatívneho question answering. Úlohy: - [x] Dajte notebook na GIT - [x] Vyhodnnotte presnosť generovania odpovede pomocou P-R-F1 pre celú dev množinu. - [-] Pokračujte v písaní textu DP. Opíšte slovenský QA dataset. Slovne opíšte experiment. Aký postup ste použili, aké dáta, aké modely. - [x] Zopakujte experiment pre model mt5-small, mt5-base. Výsledky dajte do tabuľky. Stretnutie 24.11 Stav: - nainštalované prostredie na idoc, spustený hf skript run_generation.py - prečítané články. Úlohy: - [-] písomne vysvetlite ako funguje neurónová sieť typu Transformer . Uveďte odkazy na odborné články. - [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART. - Vyskúšajte tento skript run_clm.py : https://github.com/huggingface/transformers/tree/main/examples/pytorch/language-modeling. Pozrite si príklad na run_mlm.py v repozitári https://git.kemt.fei.tuke.sk/dano/bert-train v adresári hugging/roberta-train - Pozrite si tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b - Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api - Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty. - Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký) Stretnutie 14.10. Stav: - Na vlastnom počítači rozbehané Anaconda, Pytorch a CUDA. - Prečítané články. Úlohy: - Pokračovať. Stretnutie 7.10. Stav: - Obznámený s Google Colab. Vyskúšané tutoriály BERT text classification, Úlohy: - [-] Prečítajte si ako funguje neurónová sieť typu Transformer a [ ] písomne to vysvetlite. Uveďte odkazy na odborné články. - [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART. - [x] Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers. Použite server idoc. - [x] Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation. Zásobník úloh: - Prečítajte si ako funguje neurónová sieť typu GPT a písomne to vysvetlite, Uveďte odkazy na odborné články. - Vyskúšajte tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b - Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api - Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty. - Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)