forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | taxonomy | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| Dávid Omasta | true | 
  | 
Začiatok štúdia: 2018
Súvisiace stránky:
- Question Answering - interný projekt
 - Jozef Olekšák
 - Matej Čarňanský (BERT)
 - Ondrej Megela
 
Diplomová práca 2023
Téma: Dotrénovanie slovenského generatívneho jazykového modelu.
Vedúci: Ján Staš
Návrh na zadanie DP:
- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov.
 - Napíšte v akých úlohách je možné uplatniť generatívne modely a uveďte odkazy na najnovšie články.
 - Vyberte vhdonú úlohu a ku nej pripravte vhodnú dátovú množinu pre použitie s generatívnym jazykovým modelom.
 - Pripravte experiment pri ktorej aplikujete jazykový model na zvolenú úlohu.
 - Vyhodnotte experiment vohodnou metrikou a identifikujte možné zlepšenia.
 
Ciele na zimný semester:
Praktické:
- Rozbehajte proces dotrénovania jazykových modelov pomocou knižnice Huggingface Transformers
 - Vyberte alebo vytvorte vhodnú dátovú množinu ktorá bude obsahovať slovenské dialógu.
 - Vyskúšajte slovenský generatívny model GPT a dotrénujte ho pre použitie v dialógovom systéme.
 - Vytvorte demonštračnú aplikáciu.
 
Teoretické:
- Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán).
 - Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán).
 
Stretnutie 24.11
Stav:
- nainštalované prostredie na idoc, spustený hf skript run_generation.py
 - prečítané články.
 
Úlohy:
- [-] písomne vysvetlite ako funguje neurónová sieť typu Transformer . Uveďte odkazy na odborné články.
 - Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART.
 - Vyskúšajte tento skript run_clm.py : https://github.com/huggingface/transformers/tree/main/examples/pytorch/language-modeling. Pozrite si príklad na run_mlm.py v repozitári https://git.kemt.fei.tuke.sk/dano/bert-train v adresári hugging/roberta-train
 - Pozrite si tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b
 - Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
 - Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.
 - Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)
 
Stretnutie 14.10.
Stav:
- Na vlastnom počítači rozbehané Anaconda, Pytorch a CUDA.
 - Prečítané články.
 
Úlohy:
- Pokračovať.
 
Stretnutie 7.10.
Stav:
- Obznámený s Google Colab. Vyskúšané tutoriály BERT text classification,
 
Úlohy:
- [-] Prečítajte si ako funguje neurónová sieť typu Transformer a [ ] písomne to vysvetlite. Uveďte odkazy na odborné články.
 - Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART.
 - Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers. Použite server idoc.
 - Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation.
 
Zásobník úloh:
- Prečítajte si ako funguje neurónová sieť typu GPT a písomne to vysvetlite, Uveďte odkazy na odborné články.
 - Vyskúšajte tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b
 - Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
 - Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.
 - Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)