--- title: Ondrej Megela published: true taxonomy: category: [bp2021,dp2023] tag: [nlp,fairseq,lm,bert,question-answer,qa] author: Daniel Hladek --- # Ondrej Megela Začiatok štúdia: 2018 Súvisiace stránky: - [Oleh Bilykh](/students/2018/bilykh) - question answering - [Lukáš Pokrývka](/students/2016/pokryvka) - paralelné trénovanie - [Question Answering](/topics/question) - interný projekt - Matej Čarňanský (BERT) Pozrieť toto: https://paperswithcode.com/task/text-generation?page=3 # Diplomová práca 2023 https://opac.crzp.sk/?fn=detailBiblioForm&sid=E4E659F3575B0C5BCF0F726CCD36 Nazov: Automatické generovanie otázok v slovenskom jazyku 1. Vypracujte prehľad generatívnych jazykových modelov. 2. Vypracujte prehľad vyhodnocovacích metrík pre generatívne modely. 3. Navrhnite a vykonajte viaceré experimenty pre úlohu generovania otázok. 4. Vyhodnoťte experimenty vhodnou metrikou a navrhnite zlepšenia modelu generovania otázok. Súvisiace práce: - Dávid Omasta Cieľ: Využiť slovenský generatívny model na tvorbu databázy otázok a odpovedí. https://git.kemt.fei.tuke.sk/om385wg/DP Stretnutie 24.2.2023 Stav: - Vytvorený notebook pre vyhodnotenie generovanie otázok pomocou BLEU. Zatiaľ nefunguje, pretože asi je potrebné spoávne zoradiť vygenerovanú otázku a referenciu, Ku paragrafu môže existovať viacero rôznych otázok, preto je tažké ich porovnať pomocou BLEU ngramov. Úlohy: - Na vyhodnotenie použiť sémantický model. POdľa modelu vytvoriť dvojice - generovaná veta a referencia. - Na vyhodnotneie použiť "Answerability" - QA model s thresholdom. - Pracovať na diplomovej práci - písať prehľad - metódy, metriky vyhodnotenia, datasety. - Do DP pripraviť experiment s vyhodnotením. Zásobník úloh: - Priradiť vgenerované vety ku referencii na základe sémantickej podobnosti. - Priamo merať sémantickú pokdobnosť vygenerovaných viet a referenciíá. - Použiť operátor max, mean alebo kl-diveregencia, cross-entropy? Stretnutie 23.1.2023 Stav: - Modifikovany ssk quad dataset, tak aby aby sa dal vykonat finetuning t5. Vstupom je kontext a viacero otazok. - Dotrenovany t5 model na generovanie otazok. Vyzera ze ide. - Vyskusany few shot learning pomocou prikladov zo sk quad. Ulohy: - Pokracovat v pisani podla aktualizovaneho zadania - Implementovat vyhodnbotenie generovania otazok. Vyhodnotenie pomocou generovanej odpovede. BLEU-ROUGE-METEOR pre gemnerovanue otazky a gold truth otazky. Ako sa to robi v literature ? Zistit a napisat. Zasobnik uloh: - Navrhnut eperimenty pre DP/clanbok. - porovnat slovensky a anglicky model. Mozno aj iny jazyk. - vyskusat, ako pomahaju generovane toazky pri QA. - rucne vyhodnotit vygenerovane otazky. Stretnutie 22.12. - Slovenský GPT model nefunguje na few shot generovanie otázok. - Existuje slovenský T5 model small. Ten funguje. - Vyskúšaný finetuning na colabe na slovenský T5 model na anglických dátach, zbehol za 1.5. hodiny. - Nájdený QA evaluátor, ktorý ohodnotí vygenerované otázky pomocou BERT. Evaluátor hodnotí, či otázka a odpovedˇ sedia spolu. Trénuje sa na rovnakom datasete ako generátor. - QA evaluátor a generátor https://github.com/AMontgomerie/question_generator - Finetuning slovenského T5 https://colab.research.google.com/drive/1z-Zl2hftMrFXabYfmz8o9YZpgYx6sGeW?usp=sharing Úlohy: - Pracovať na textovej časti DP a.k.a. ATKS - Skontrolovať a na ďalšom stretnutí updatovať zadanie DP. - Dokončiť skripty a generovať otázky pre slovenský jazyk. - Vyhodnotiť kvalitu generovania otázok. - Pripraviť experiment, kde vo viacerých scenároch (finetuning, few shot) generujeme otázky. Zásobník úloh: - Pripraviť článok (do časopisu). Najprv prekladom z DP. - Pripraviť aj out-of-domain test - iná doména (noviny, úäradné dokumenty). Iný jazyk. Porovnanie slovenského a anglického generovanie. - Pripraviť test, kde odmieriame prínos automaticky generovanej databázy na probmém question answering. - Použiť generátor pri manuálnej anotácii. Človek môže hodnotiť kvalitu generovanej otázky alebo ju opraviť. Stretnutie 28.10 Stav: - Vyskúšaný slovenský GPT model v rôznych veľkostiach. Generovanie funguje. Obbmedzene funguje aj zero shot sentiment classification. Zagtiaľ nefuguje pre generovanie otázok. Úlohy: - Pokračovať v Zero Shot: Vymeniť Sentence za Veta. Pozrieť Separátor v slovníku. - Skúsiť rozbehať run_clm pre slovenský GPT model pre úlohu generovania otázok. Poskytnutý prístup do repozitára bert-train. Ak skript bude fungovať, tak ho pridajte do repozitára bert-train/huggingface/clm Zásobník úloh: - Možno by sa dalo formulovať úlohu ako klasický machne translation a použiť niekotrý existujúci setup pre preklad bez predtrénovania. Existujú skripty pre fairseq. - Možno bude fungovať nejaký multilinguálny generatívny model. Stretnutie 7.10: Stav: - PatilSuraj zatiaľ nefunguje. Funguje iba na T5 a Bart vlastné anglické, nefunguje na gpt-j ano na mt5. Stále je tam možnosť vyskúšať vlastný slovenský BART. Úlohy: - [x] Vyskúšať slovenský GPT model v úlohe few-shot learning. Inšpirácia https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api. Použite niektorý prístup z patilsuraj. - [ ] Vyoracujte písomný prehľad generatívnych jazykových modelov. - [ ] Vypracujte písomný prehľad metód generovania otázok pomocou jazykového modelu. Nezabudnite na odkazy na odbornú literatúru. Zásobník úloh: - [ ] Dotrénovať slovenský GPT model pomocou HF skriptu run_clm.py - [ ] Zistiť aký veľký model nám funguje. - [ ] Vybrať vhodný server na dorénovanie. Koľko GRAM potrebujeme? - [ ] Záložná možnosť - písať pre anglický jazyk. ## Diplomový projekt 1 2022 Cieľ: - Vytvoriť a vyhodnotiť generatívny model slovenského jazyka. - Navrhnúť a vytvoriť overovaciu množinu pre slovenské generatívne modely. Stretnutie 29.6. - Vyskúšané dosadenie slovenského GPT modelu do kódu patil-suraj. Nefunguje - nepasuje konfigurácia. - Vyskúšané nasadenie Multilingual T5. Podarilo sa ho nahrať. Chyba "index Out Of Range". Úlohy: - Pokračovať v otvorených úlohách. Rozbehať skripty "patil-suraj". Zásobník úloh: - Vyskúšať existujúci slovenský BART model (od vedúceho). - Natrénovať a vyskúšať nový slovenský BART model (aj pre vedúceho). Stretnutie 8.4. Prezreté sú tri repozitáre. kompatibilné s HF Transformers https://github.com/p208p2002/Transformer-QG-on-SQuAD#seq2seq-lm - Používa modely GPT-2, BART,T5, upravený „BERT“ - vstup ide odsek + zvýraznená odpoveď pomocou tokenu [HL] Haystack deepset – QG pipeline - Postup: (https://haystack.deepset.ai/tutorials/question-generation) - kompatibilný s HF Transformers - https://github.com/deepset-ai/haystack#mortar_board-tutorials - https://www.deepset.ai/blog/generate-questions-automatically-for-faster-annotation https://github.com/patil-suraj/question_generation - Využíva 2 formáty vstupu: - Oddelenie odpovede pomocou SEP, odpoveď je osobitne - 42 `[SEP]` 42 is the answer to life, the universe and everything. Vyznačenie odpovede pomocou HL priamo v kontexte. - `<hl>` 42 `<hl>` is the answer to life, the universe and everything. 3 možnosti definície úlohy generovanie otázok : - QG – vstup je kontext a odpoveď, výstup je otázka - Multitask QA- QG: Deje sa vo viacerých krokoch: vyhľadanie odpovede (zaujímavej časti) v texte, generovanie otazky na zaklade odpovede, spätné vyhľadanie odpovede - End-to-End QG – Generovanie otázok len na zaklade kontextu, vstup je kontext, výstup je otázka. Úlohy: - Začneme s prístupom "End-To-End" - generovanie otázok na základe zadaného odseku. - Rozbehnite skript, ktorý naučí generatívny model generovať otázky na základe zadaného odseku. Ako vstup použite sk-quad. Zásobník úloh: - Navrhnite a implementujte spôsob vyhľadanie zaujímavej časti odseku - kandidáta na možnú odpoveď. 11.3. - Vyskúšaný GPT na cloab, zatiaľ nefunguje kvôli pamäti. Možné spôsoby využitia generatívnych modelov: - mnli - multi natural language inference - textual entailment and contradiction, zero shot classification - strojový preklad - sumarizácia, conditional generation - asi nepotrebuje finetinung - konverzačné systémy - generovanie odpovede na otázku - generovanie otázok ku zadanému odseku (reverse squad) Možné spôsoby vytvorenia overovacej množiny: - Využitie slovenského squadu pre úlohu generovania otázok. - Strojový preklad existujúceho jazykového zdroja do slovenčiny. - Pokúsime sa vytvoriť vlastnú dátovú množinu od začiatku. Pre ktorú úlohu? - Na overenie použijeme existujúci paralelný korpus - to si vyžaduje fine-tuning pre strojový preklad. - Strojovo vytvoríme overovaciu databázu pre úlohu sumarizácie. Zoberieme novinové články alebo vedecké články alebo záverečné práce ktoré majú uvedený abstrakt. Úlohy: - vyskúšať menší GPT model - Zistit a stručne opísať, ako funguje automatické generovanie otázok vo formáte squad. Ako neurónka berie do úvahy odpoveď? Zisitiť ako vyznačiť zaujímavé časti odseku (NER, parser, sumarizácia..) - ako vygenerovať odpoveď. - Porozmýšľať, ako použiť na túto úlohu Transformers. 25.2. - Vytvorený textový report, kde je urobený prehľad metód vyhodnotenia a niekoľkých testovacích korpusov a benchmarkov. Rouge je používaná metrika. Úlohy: - Vypracovať prehľad generatívnych jazykových modelov - Vyskúšať slovenský GPT model. - Navrhnúť ako dotrénovať model na úlohu sumarizácie. Zásobník úloh: - Vytvoriť model pre generovanie faktických otázok ku zadanému paragrahu.. Môžeme využiť slovenský squad. - Vytvoriť model pre sumarizáciu novinových článkov. - Vytvoriť databázu pre vyhodnotenie generatívnych vlastností jazykového mo,delu. Napr. úloha sumarizácie alebo iná. Stretnutie 27.1.2022 Úlohy: - Napísať prehľad spôsobov vyhodnotenia generatívnych modelov - Zostaviť prehľad metrík a dátových množin. - Zostaviť prehľad najnovších generatívnych modelov. Zásobník úloh: - Zistiť niečo o algoritmoch GAN (generative adversarial network) a VAE (variational autoendoder). - Napíšte na aké NLP úlohy sa používajú a s akými výsledkami. - Zistite aké (optinálne) Python-Pytorch knižnice sa dajú použiť. ## Bakalárska práca 2020 Názov: Neurónové jazykové modelovanie typu BERT. [Bakalárska práca](https://opac.crzp.sk/?fn=detailBiblioForm&sid=4A7927334F9373E92B42D999785B) Návrh na zadanie: 1. Vypracujte prehľad metód jazykového modelovania pomocou neurónových sietí. 2. Vypracujte prehľad aplikácií modelu typu BERT a spôsoby ich vyhodnotenia. 3. Natrénujte jazykový model metódou BERT alebo podobnou. 4. Vyhodnoťte jazykový model a navrhnite zlepšenia presnosti. Zásobník úloh: - Cieľom je vedieť natrénovať BERT model a vyhodnotiť ho na zvolenej testovacej množine. - vyhodnotiť slovenský Roberta Model na pokusnej množine SK-quad. Stretnutie 12.3. Stav: - Konzultácia štruktúry práce Úlohy: - Písať. Stretnutie 26.2. Stav: - Vyriešený technický problém s architektúrou modelu podľa predpokladu. - Urobené vyhodnotenie modelu wiki103 na CommonsenseQA. Úlohy: - Pokračujte v práci na textovej časti. - Odovzdané pracovné dáta pre slovenský Roberta Model aj SK-Quad. Pokúste sa to vyhodnotiť ako neprioritnú ulohu. Stretnutie 22.2. Stav: - Natrénovaný model wiki103 na stroji Quadro. Problém sa vyriešil vypnutím GPU pri trénovaní, - Vznikol problém pri vypracovaní https://github.com/pytorch/fairseq/blob/master/examples/roberta/commonsense_qa/README.md - Architecture mismatch. Možné riešenie - iný prepínač `-arch` pri dotrénovaní. tak aby sedel s predtrénovaním. Úlohy: - skúsiť vyhodnotenie Wiki 103 na Commonsense - Pokračujte v práci na textovej časti - vytvorte plynulý text. ## Bakalársky projekt 2020 Stretnutie 12.2. Stav: - Pokúšame sa vytvoriť hodnotenie pomcou množiny CommonSenseQA - Problém pri trénovaní na Wiki103 na stroji Quadra, (vyzerá to ako deadlock) - Máme k dispozícii ROBERTA model natrénovaný na veľkej množine slovenských dát. Do budúceho stretnutia: - Problém sa možno dá obísť skopírovaním modelu zo stroja Tesla. - na kopírovanie použite príkaz `scp -r user@server:zdrojovyadresar cielovyadresar`. - pokračovať vo vyhodnotení pomocou CommonSenseQA. - skúste vyhodnotiť aj slovenský model. Ako? - pracujte na súvislom texte bakalárskej práce. Virtuálne stretnutie 18.12.2020 Stav: - Natrénovaný model ROBERTA na malej množine Wiki103 podľa tutoriálu. Trénovanie trvalo jeden týždeň. - Spísané poznámky ku množine SQUAD. - Vytvorený prístup na server quadra.kemt.fei.tuke.sk Úlohy: - Pokračovať v písaní - Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/commonsense_qa/README.md - cieľom je vedieť vyhodnotiť BERT model. - Pri trénovaní si overte, či sú využité všetky 4 karty. - Pozrite si DP [Lukáš Pokrývka](https://zp.kemt.fei.tuke.sk/students/2016/lukas_pokryvka) - Ak pôjde trénovanie v poriadku, skúste vykonať viac experimentov s rôznymi parametrami, zapíšte si postup experimetu (príkazový riadok) a výsledok. Virtuálne stretnutie 4.12.2020 Stav: - Preštudovaný tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.pretraining.md - Vyriešený problém s Pytorch. - Inštalácia [Fairseq](https://git.kemt.fei.tuke.sk/om385wg/bp2021/wiki/In%C5%A1tal%C3%A1cia-fairseq) Conda aj Pytorch. - Chyba optimizéra [Fairseq](https://git.kemt.fei.tuke.sk/om385wg/bp2021/wiki/Vyrie%C5%A1en%C3%A9-Chyby) a jej riešenie. - Vypracované poznámky o trénovaní a vyhodnocovaní BERT. Úlohy: - Pokračujte v práci na písomnej časti. Skúste prepísať odrážky do plynulého textu. - Pridajte poznámky o vyhodnotení pomocou SQUAD. - Pokračujte v trénovaní Roberta na dátovej sade Wiki-103 na systéme Tesla, odhadovaný čas trénovania 64 hod. - Zistite ako sa dá vyhodnotiť natrénovaný model Roberta. - Zvážiť možnosť trénovania na systéme Titan a Quadra (pre vedúceho). Virtuálne stretnutie 20.11.2020 Stav: - Urobené tutoriály ale iba na CPU. Do ďalšieho stretnutia: - Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.pretraining.md . - Pracovať na písomnej časti - zamerať sa na vyhodnotenie BERT modelu. Na aké modelové úlohy sa používa? - Napíšte poznámky, kde všade sa vyskytol technický problém a aké bolo riešenie. Dôležité sú verzie a podmienky pri ktorých sa problém vyskytol. - Spíšte ako nainštalovať knižnice tak aby to fungovalo (s CPU aj s GPU). - Vytvorte si na GITe repozitár bp2021, do neho dajte poznámky a kódy ktoré ste vyskúšali. Virtuálne stretnutie 13.11.2020 Stav: - Vypracované poznámky aj k transformer a BERT - Vyskúšaná release verzia Fairseq. Stále trvá technický problém s tutoriálom. - Vyskúšaný BERT tutoriáli. Chyba "illegal instruction" pri extrahovaní príznakov "extract features from ROBERTA". https://discuss.pytorch.org/t/illegal-instruction-core-dumped-in-first-pytorch-tutorial/62059/3 pravdepodobne problém s inštrukčnou sadou CPU. - \vytvorený prístup na tesla pre vyriešenie. Do ďalšieho stretnutia: - pokračovať v otvorených úlohách. Virtuálne stretnutie 30.10.2020 Stav: - Vypracované poznámky k seq2seq - nainštalovaný Pytorch a fairseq - problémy s tutoriálom. Riešenie by mohlo byť použitie release verzie 0.9.0, pip install fairseq=0.9.0 Do ďalšieho stretnutia: - Vyriešte technické porblémy - prejdide si tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model - Prejsť si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.md alebo podobný. - Preštudujte si články na tému BERT, urobte si poznámky čo ste sa dozvedeli spolu so zdrojom. Virtuálne stretnutie 16.10.2020 Stav: - Vypracované poznámky k uvedeným bodom. - Problém s inštaláciou Anaconda. Do ďalieho stretnutia: - nainštalujte pytorch a knižnicu fairseq - prejtide si tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model - Napíšte ďalšie poznámky ku architektúre encoder-decoder, nájdite najdôležitejšie články a čo hovoria. Virtuálne stretnutie 2.10.2020 Vytvorený prístup `ssh megela@idoc.fei.tuke.sk` Úlohy do ďalšieho stretnutia: - Naštudujte si a vyracujte poznámky s uvedením zdroja: - spracovanie prirodzeného jazyka - jazykové modelovanie - rekurentná neurónová sieť - architektúra enkóder dekóder alebo seq2seq - Nainštalujte si prostredie Anaconda, pytorch a knižnicu fairseq Na štúdium: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics - python - nlp - seq2seq