--- title: Dominik Nagy published: true taxonomy: category: [dp2022,bp2019] tag: [translation,nlp] author: Daniel Hladek --- # Dominik Nagy *Rok začiatku štúdia*: 2016 ## Diplomová práca 2022 *Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre strojový preklad *Meno vedúceho*: Ing. Daniel Hládek, PhD. *Zadanie diplomovej práce*: 1. Vypracujte teoretický prehľad metód "sequence to sequence". 2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu. 3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine. 4. Na základe výsledkov experimentov navrhnite zlepšenia. Stretnutie 11.1.2022 - Urobené všetky úlohy z minulého stretnutia, okrem textu a gitu. Úlohy: - dajte všetky skripty do repozitára dp2022 - Napíšte si osnovu diplomovej práce. - Vypracujte draft (hrubý text) diplomovej práce. - V texte DP sumarizujte vykonané experimenty. - Pripravte si prezentáciu na obhajoby. Zásobník úloh: - Pripravte článok (pre vedúceho). - Urobte experiment s architektúrou MBART. Porovnajte Vaše výsledky s výsledkami v článku MBART (Liu et al. : Multilingual Denoising Pre-training for Neural Machine Translation). Stretnutie 17.12.2021 Stav: - rozbehané trénovanie na slovensko-anglickom (LinDat) paralelnom korpuse. - model z angličtiny do slovenčiny. - tokenizácia subword NMT. - rozbehané trénovanie na GPU, bez anaconda. Úlohy: - [x] Cieľ je aby Vaše experimenty boli zopakovateľné. Pridajte všetky trénovacie skripty do git repozitára. Nepridávajte dáta. Pridajte skripty alebo návody na to ako pripraviť dáta. - [x] Zostavte tabuľku kde zapíšete parametre trénovania a dosiahnuté výsledky. - Napíšte prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí kde prečítate viacero vedeckých článkov a ku každému uvediete názov a čo ste sa z neho dozvedeli. Vyhľadávajte kľúčové slovíčka: "Survey of neural machine translation". Chceme sa dozvedieť aj o transformeroch a neurónových jazykových modeloch. - [x] vyskúšajte trénovanie aj s inými architektúrami. Ku každému trénovaniu si poznačte skript, výsledky a dajte to na git. Zásobník úloh: - [x] Výskúšajte preklad v opačnom smere. - [x] Vyskúšanie inej metódy tokenizácie (BPE, sentencepiece, wordpiece - huggingface tokenizers). Stretnutie 6.7.2021 Stav: - Podarilo sa rozbehať setup pre trénovanie slovensko anglického prekladu na korpuse 10 viet pomocou fairseq. Úlohy: - Pokračujte v trénovaní na servri IDOC, použite skript na príápravu prostredia ktorý som Vám dal. - Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model. - Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU. ## Príprava na Diplomový projekt 2 2021 Zásobník úloh: - Využiť BERT model pri strojovom preklade zo slovenčiny Stretnutie 17.2.2021 Stav: - Plán ukončiť v roku 2022 - Vypracovaný tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model a https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html Do ďalšieho stretnutia: - Treba zlepšiť teoretickú prípravu a písanie. - Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať. - Natrénovať model fairseq pre strojový preklad zo slovenčiny. - Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili. - Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli. ## Diplomový projekt 2 Virtuálne stretnutie 25.9. - Možnosť predĺženia štúdia - Inak pokračovať v otvorených úlohách Úlohy na ďalšie stretnutie: - pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model - pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model ## Diplomový projekt 1 2020 Literatúra: [Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037) Úlohy na semester: - Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny - Natrénovať a vyhodnotiť Fairseq Model Virtuálne stretnutie 30.7.2020: Dohoda na opakovaní predmetu. Virtuálne stretnutie 14.5.2020: Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát Úlohy na ďalšie stretnutie: - pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model - pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model Stretnutie 6.3.2020. Úloha na ďalšie stretnutie: - spustiť Trénovanie Fairseq na idoc - Pozrieť dostupné [jazykové zdroje](/topics/resources) - Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/) - Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md ## Tímový projekt 2019 *Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md) *Úlohy tímového projektu*: - Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention) - citujte min. 10 najvýznamnejších bibliografických zdrojov - Prečítajte si o [konvolučných sieťach](http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/) - Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction - Skúste si nainštalovať nástroj fairseq - prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md ### Poznámky Projektové stránky: - [Spracovanie prirodzeného jazyka](/topics/nlp) - [Python](/topics/python) - [Sequence to Sequence](/topics/seq2seq) V prípade záujmu je možné pracovať na úlohe strojového prekladu. Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora