| .. | ||
| README.md | ||
| title | published | taxonomy | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Ondrej Megela | true | 
  | 
Ondrej Megela
Začiatok štúdia: 2018
Súvisiace stránky:
- Oleh Bilykh - question answering
 - Lukáš Pokrývka - paralelné trénovanie
 - Question Answering - interný projekt
 - Matej Čarňanský (BERT)
 
Bakalárska práca 2020
Názov: Neurónové jazykové modelovanie typu BERT.
Návrh na zadanie:
- Vypracujte prehľad metód jazykového modelovania pomocou neurónových sietí.
 - Vypracujte prehľad aplikácií modelu typu BERT a spôsoby ich vyhodnotenia.
 - Natrénujte jazykový model metódou BERT alebo podobnou.
 - Vyhodnoťte jazykový model a navrhnite zlepšenia presnosti.
 
Zásobník úloh:
- Cieľom je vedieť natrénovať BERT model a vyhodnotiť ho na zvolenej testovacej množine.
 - vyhodnotiť slovenský Roberta Model na pokusnej množine SK-quad.
 
Stretnutie 12.3.
Stav:
- Konzultácia štruktúry práce
 
Úlohy:
- Písať.
 
Stretnutie 26.2.
Stav:
- Vyriešený technický problém s architektúrou modelu podľa predpokladu.
 - Urobené vyhodnotenie modelu wiki103 na CommonsenseQA.
 
Úlohy:
- Pokračujte v práci na textovej časti.
 - Odovzdané pracovné dáta pre slovenský Roberta Model aj SK-Quad. Pokúste sa to vyhodnotiť ako neprioritnú ulohu.
 
Stretnutie 22.2.
Stav:
- Natrénovaný model wiki103 na stroji Quadro. Problém sa vyriešil vypnutím GPU pri trénovaní,
 - Vznikol problém pri vypracovaní https://github.com/pytorch/fairseq/blob/master/examples/roberta/commonsense_qa/README.md - Architecture mismatch. Možné riešenie - iný prepínač 
-archpri dotrénovaní. tak aby sedel s predtrénovaním. 
Úlohy:
- skúsiť vyhodnotenie Wiki 103 na Commonsense
 - Pokračujte v práci na textovej časti - vytvorte plynulý text.
 
Bakalársky projekt 2020
Stretnutie 12.2.
Stav:
- Pokúšame sa vytvoriť hodnotenie pomcou množiny CommonSenseQA
 - Problém pri trénovaní na Wiki103 na stroji Quadra, (vyzerá to ako deadlock)
 - Máme k dispozícii ROBERTA model natrénovaný na veľkej množine slovenských dát.
 
Do budúceho stretnutia:
- Problém sa možno dá obísť skopírovaním modelu zo stroja Tesla.
 - na kopírovanie použite príkaz 
scp -r user@server:zdrojovyadresar cielovyadresar. - pokračovať vo vyhodnotení pomocou CommonSenseQA.
 - skúste vyhodnotiť aj slovenský model. Ako?
 - pracujte na súvislom texte bakalárskej práce.
 
Virtuálne stretnutie 18.12.2020
Stav:
- Natrénovaný model ROBERTA na malej množine Wiki103 podľa tutoriálu. Trénovanie trvalo jeden týždeň.
 - Spísané poznámky ku množine SQUAD.
 - Vytvorený prístup na server quadra.kemt.fei.tuke.sk
 
Úlohy:
- Pokračovať v písaní
 - Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/commonsense_qa/README.md - cieľom je vedieť vyhodnotiť BERT model.
 - Pri trénovaní si overte, či sú využité všetky 4 karty.
 - Pozrite si DP Lukáš Pokrývka
 - Ak pôjde trénovanie v poriadku, skúste vykonať viac experimentov s rôznymi parametrami, zapíšte si postup experimetu (príkazový riadok) a výsledok.
 
Virtuálne stretnutie 4.12.2020
Stav:
- Preštudovaný tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.pretraining.md
 - Vyriešený problém s Pytorch.
 - Inštalácia Fairseq Conda aj Pytorch.
 - Chyba optimizéra Fairseq a jej riešenie.
 - Vypracované poznámky o trénovaní a vyhodnocovaní BERT.
 
Úlohy:
- Pokračujte v práci na písomnej časti. Skúste prepísať odrážky do plynulého textu.
 - Pridajte poznámky o vyhodnotení pomocou SQUAD.
 - Pokračujte v trénovaní Roberta na dátovej sade Wiki-103 na systéme Tesla, odhadovaný čas trénovania 64 hod.
 - Zistite ako sa dá vyhodnotiť natrénovaný model Roberta.
 - Zvážiť možnosť trénovania na systéme Titan a Quadra (pre vedúceho).
 
Virtuálne stretnutie 20.11.2020
Stav:
- Urobené tutoriály ale iba na CPU.
 
Do ďalšieho stretnutia:
- Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.pretraining.md .
 - Pracovať na písomnej časti - zamerať sa na vyhodnotenie BERT modelu. Na aké modelové úlohy sa používa?
 - Napíšte poznámky, kde všade sa vyskytol technický problém a aké bolo riešenie. Dôležité sú verzie a podmienky pri ktorých sa problém vyskytol.
 - Spíšte ako nainštalovať knižnice tak aby to fungovalo (s CPU aj s GPU).
 - Vytvorte si na GITe repozitár bp2021, do neho dajte poznámky a kódy ktoré ste vyskúšali.
 
Virtuálne stretnutie 13.11.2020
Stav:
- Vypracované poznámky aj k transformer a BERT
 - Vyskúšaná release verzia Fairseq. Stále trvá technický problém s tutoriálom.
 - Vyskúšaný BERT tutoriáli. Chyba "illegal instruction" pri extrahovaní príznakov "extract features from ROBERTA". https://discuss.pytorch.org/t/illegal-instruction-core-dumped-in-first-pytorch-tutorial/62059/3 pravdepodobne problém s inštrukčnou sadou CPU.
 - \vytvorený prístup na tesla pre vyriešenie.
 
Do ďalšieho stretnutia:
- pokračovať v otvorených úlohách.
 
Virtuálne stretnutie 30.10.2020
Stav:
- Vypracované poznámky k seq2seq
 - nainštalovaný Pytorch a fairseq
 - problémy s tutoriálom. Riešenie by mohlo byť použitie release verzie 0.9.0, pip install fairseq=0.9.0
 
Do ďalšieho stretnutia:
- Vyriešte technické porblémy
 - prejdide si tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model
 - Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.md alebo podobný.
 - Preštudujte si články na tému BERT, urobte si poznámky čo ste sa dozvedeli spolu so zdrojom.
 
Virtuálne stretnutie 16.10.2020
Stav:
- Vypracované poznámky k uvedeným bodom.
 - Problém s inštaláciou Anaconda.
 
Do ďalieho stretnutia:
- nainštalujte pytorch a knižnicu fairseq
 - prejtide si tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model
 - Napíšte ďalšie poznámky ku architektúre encoder-decoder, nájdite najdôležitejšie články a čo hovoria.
 
Virtuálne stretnutie 2.10.2020
Vytvorený prístup ssh megela@idoc.fei.tuke.sk
Úlohy do ďalšieho stretnutia:
- Naštudujte si a vyracujte poznámky s uvedením zdroja:
- spracovanie prirodzeného jazyka
 - jazykové modelovanie
 - rekurentná neurónová sieť
 - architektúra enkóder dekóder alebo seq2seq
 
 - Nainštalujte si prostredie Anaconda, pytorch a knižnicu fairseq
 
Na štúdium:
https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics
- python
 - nlp
 - seq2seq