--- title: Ondrej Megela published: true taxonomy: category: [bp2021] tag: [nlp,fairseq,lm,bert,question-answer,qa] author: Daniel Hladek --- # Ondrej Megela Začiatok štúdia: 2018 Súvisiace stránky: - [Oleh Bilykh](/students/2018/bilykh) - question answering - [Lukáš Pokrývka](/students/2016/pokryvka) - paralelné trénovanie - [Question Answering](/topics/question) - interný projekt - Matej Čarňanský (BERT) ## Bakalárska práca 2020 Názov: Neurónové jazykové modelovanie typu BERT. Návrh na zadanie: 1. Vypracujte prehľad metód jazykového modelovania pomocou neurónových sietí. 2. Vypracujte prehľad aplikácií modelu typu BERT a spôsoby ich vyhodnotenia. 3. Natrénujte jazykový model metódou BERT alebo podobnou. 4. Vyhodnoťte jazykový model a navrhnite zlepšenia presnosti. Zásobník úloh: - Cieľom je vedieť natrénovať BERT model a vyhodnotiť ho na zvolenej testovacej množine. - vyhodnotiť slovenský Roberta Model na pokusnej množine SK-quad. Stretnutie 26.2. Stav: - Vyriešený technický problém s architektúrou modelu podľa predpokladu. - Urobené vyhodnotenie modelu wiki103 na CommonsenseQA. Úlohy: - Pokračujte v práci na textovej časti. - Odovzdané pracovné dáta pre slovenský Roberta Model aj SK-Quad. Pokúste sa to vyhodnotiť ako neprioritnú ulohu. Stretnutie 22.2. Stav: - Natrénovaný model wiki103 na stroji Quadro. Problém sa vyriešil vypnutím GPU pri trénovaní, - Vznikol problém pri vypracovaní https://github.com/pytorch/fairseq/blob/master/examples/roberta/commonsense_qa/README.md - Architecture mismatch. Možné riešenie - iný prepínač `-arch` pri dotrénovaní. tak aby sedel s predtrénovaním. Úlohy: - skúsiť vyhodnotenie Wiki 103 na Commonsense - Pokračujte v práci na textovej časti - vytvorte plynulý text. ## Bakalársky projekt 2020 Stretnutie 12.2. Stav: - Pokúšame sa vytvoriť hodnotenie pomcou množiny CommonSenseQA - Problém pri trénovaní na Wiki103 na stroji Quadra, (vyzerá to ako deadlock) - Máme k dispozícii ROBERTA model natrénovaný na veľkej množine slovenských dát. Do budúceho stretnutia: - Problém sa možno dá obísť skopírovaním modelu zo stroja Tesla. - na kopírovanie použite príkaz `scp -r user@server:zdrojovyadresar cielovyadresar`. - pokračovať vo vyhodnotení pomocou CommonSenseQA. - skúste vyhodnotiť aj slovenský model. Ako? - pracujte na súvislom texte bakalárskej práce. Virtuálne stretnutie 18.12.2020 Stav: - Natrénovaný model ROBERTA na malej množine Wiki103 podľa tutoriálu. Trénovanie trvalo jeden týždeň. - Spísané poznámky ku množine SQUAD. - Vytvorený prístup na server quadra.kemt.fei.tuke.sk Úlohy: - Pokračovať v písaní - Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/commonsense_qa/README.md - cieľom je vedieť vyhodnotiť BERT model. - Pri trénovaní si overte, či sú využité všetky 4 karty. - Pozrite si DP [Lukáš Pokrývka](https://zp.kemt.fei.tuke.sk/students/2016/lukas_pokryvka) - Ak pôjde trénovanie v poriadku, skúste vykonať viac experimentov s rôznymi parametrami, zapíšte si postup experimetu (príkazový riadok) a výsledok. Virtuálne stretnutie 4.12.2020 Stav: - Preštudovaný tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.pretraining.md - Vyriešený problém s Pytorch. - Inštalácia [Fairseq](https://git.kemt.fei.tuke.sk/om385wg/bp2021/wiki/In%C5%A1tal%C3%A1cia-fairseq) Conda aj Pytorch. - Chyba optimizéra [Fairseq](https://git.kemt.fei.tuke.sk/om385wg/bp2021/wiki/Vyrie%C5%A1en%C3%A9-Chyby) a jej riešenie. - Vypracované poznámky o trénovaní a vyhodnocovaní BERT. Úlohy: - Pokračujte v práci na písomnej časti. Skúste prepísať odrážky do plynulého textu. - Pridajte poznámky o vyhodnotení pomocou SQUAD. - Pokračujte v trénovaní Roberta na dátovej sade Wiki-103 na systéme Tesla, odhadovaný čas trénovania 64 hod. - Zistite ako sa dá vyhodnotiť natrénovaný model Roberta. - Zvážiť možnosť trénovania na systéme Titan a Quadra (pre vedúceho). Virtuálne stretnutie 20.11.2020 Stav: - Urobené tutoriály ale iba na CPU. Do ďalšieho stretnutia: - Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.pretraining.md . - Pracovať na písomnej časti - zamerať sa na vyhodnotenie BERT modelu. Na aké modelové úlohy sa používa? - Napíšte poznámky, kde všade sa vyskytol technický problém a aké bolo riešenie. Dôležité sú verzie a podmienky pri ktorých sa problém vyskytol. - Spíšte ako nainštalovať knižnice tak aby to fungovalo (s CPU aj s GPU). - Vytvorte si na GITe repozitár bp2021, do neho dajte poznámky a kódy ktoré ste vyskúšali. Virtuálne stretnutie 13.11.2020 Stav: - Vypracované poznámky aj k transformer a BERT - Vyskúšaná release verzia Fairseq. Stále trvá technický problém s tutoriálom. - Vyskúšaný BERT tutoriáli. Chyba "illegal instruction" pri extrahovaní príznakov "extract features from ROBERTA". https://discuss.pytorch.org/t/illegal-instruction-core-dumped-in-first-pytorch-tutorial/62059/3 pravdepodobne problém s inštrukčnou sadou CPU. - \vytvorený prístup na tesla pre vyriešenie. Do ďalšieho stretnutia: - pokračovať v otvorených úlohách. Virtuálne stretnutie 30.10.2020 Stav: - Vypracované poznámky k seq2seq - nainštalovaný Pytorch a fairseq - problémy s tutoriálom. Riešenie by mohlo byť použitie release verzie 0.9.0, pip install fairseq=0.9.0 Do ďalšieho stretnutia: - Vyriešte technické porblémy - prejdide si tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model - Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.md alebo podobný. - Preštudujte si články na tému BERT, urobte si poznámky čo ste sa dozvedeli spolu so zdrojom. Virtuálne stretnutie 16.10.2020 Stav: - Vypracované poznámky k uvedeným bodom. - Problém s inštaláciou Anaconda. Do ďalieho stretnutia: - nainštalujte pytorch a knižnicu fairseq - prejtide si tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model - Napíšte ďalšie poznámky ku architektúre encoder-decoder, nájdite najdôležitejšie články a čo hovoria. Virtuálne stretnutie 2.10.2020 Vytvorený prístup `ssh megela@idoc.fei.tuke.sk` Úlohy do ďalšieho stretnutia: - Naštudujte si a vyracujte poznámky s uvedením zdroja: - spracovanie prirodzeného jazyka - jazykové modelovanie - rekurentná neurónová sieť - architektúra enkóder dekóder alebo seq2seq - Nainštalujte si prostredie Anaconda, pytorch a knižnicu fairseq Na štúdium: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics - python - nlp - seq2seq