--- title: Dávid Omasta published: true taxonomy: category: [dp2023] tag: [lm] author: Daniel Hladek --- Začiatok štúdia: 2018 Súvisiace stránky: - [Question Answering](/topics/question) - interný projekt - Jozef Olekšák - Matej Čarňanský (BERT) - Ondrej Megela # Diplomová práca 2023 Téma: Dotrénovanie slovenského generatívneho jazykového modelu. Vedúci: Ján Staš Návrh na zadanie DP: - Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov. - Napíšte v akých úlohách je možné uplatniť generatívne modely a uveďte odkazy na najnovšie články. - Vyberte vhdonú úlohu a ku nej pripravte vhodnú dátovú množinu pre použitie s generatívnym jazykovým modelom. - Pripravte experiment pri ktorej aplikujete jazykový model na zvolenú úlohu. - Vyhodnotte experiment vohodnou metrikou a identifikujte možné zlepšenia. Ciele na zimný semester: Praktické: - Rozbehajte proces dotrénovania jazykových modelov pomocou knižnice Huggingface Transformers - Vyberte alebo vytvorte vhodnú dátovú množinu ktorá bude obsahovať slovenské dialógu. - Vyskúšajte slovenský generatívny model GPT a dotrénujte ho pre použitie v dialógovom systéme. - Vytvorte demonštračnú aplikáciu. Teoretické: - Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán). - Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán). Stretnutie 6.10. Stav: - Obznámený s Google Colab. Úlohy: - Prečítajte si ako funguje neurónová sieť typu Transformer a písomne to vysvetlite. Uveďte odkazy na odborné články. - Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jayzkových modeloch - T5, GPT, BART. - Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers. Použite server idoc. - Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation. Zásobník úloh: - Prečítajte si ako funguje neurónová sieť typu GPT a písomne to vysvetlite, Uveďte odkazy na odborné články. - Vyskúšajte tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b - Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api - Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.