diff --git a/pages/students/2018/david_omasta/README.md b/pages/students/2018/david_omasta/README.md new file mode 100644 index 0000000000..ce2f030370 --- /dev/null +++ b/pages/students/2018/david_omasta/README.md @@ -0,0 +1,64 @@ +--- +title: Dávid Omasta +published: true +taxonomy: + category: [dp2023] + tag: [lm] + author: Daniel Hladek +--- + +Začiatok štúdia: 2018 + +Súvisiace stránky: + +- [Question Answering](/topics/question) - interný projekt +- Jozef Olekšák +- Matej Čarňanský (BERT) +- Ondrej Megela + +# Diplomová práca 2023 + +Téma: Dotrénovanie slovenského generatívneho jazykového modelu. + +Vedúci: Ján Staš + +Návrh na zadanie DP: + +- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov. +- Napíšte v akých úlohách je možné uplatniť generatívne modely a uveďte odkazy na najnovšie články. +- Vyberte vhdonú úlohu a ku nej pripravte vhodnú dátovú množinu pre použitie s generatívnym jazykovým modelom. +- Pripravte experiment pri ktorej aplikujete jazykový model na zvolenú úlohu. +- Vyhodnotte experiment vohodnou metrikou a identifikujte možné zlepšenia. + +Ciele na zimný semester: + +Praktické: +- Rozbehajte proces dotrénovania jazykových modelov pomocou knižnice Huggingface Transformers +- Vyberte alebo vytvorte vhodnú dátovú množinu ktorá bude obsahovať slovenské dialógu. +- Vyskúšajte slovenský generatívny model GPT a dotrénujte ho pre použitie v dialógovom systéme. +- Vytvorte demonštračnú aplikáciu. + +Teoretické: + +- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán). +- Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán). + +Stretnutie 6.10. + +Stav: + +- Obznámený s Google Colab. + +Úlohy: + +- Prečítajte si ako funguje neurónová sieť typu Transformer a písomne to vysvetlite. Uveďte odkazy na odborné články. +- Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jayzkových modeloch - T5, GPT, BART. +- Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers. Použite server idoc. +- Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation. + +Zásobník úloh: + +- Prečítajte si ako funguje neurónová sieť typu GPT a písomne to vysvetlite, Uveďte odkazy na odborné články. +- Vyskúšajte tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b +- Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api +- Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.