--- title: Patrik Pavlišin published: true taxonomy: category: [dp2022,bp2020,tp2021] tag: [nmt,translation,nlp] author: Daniel Hladek --- # Patrik Pavlišin # Diplomová práca 2022 Predbežný názov: Neurónový strojový preklad Návrh na nástroje pre strojový preklad: - OpenNMT-py - Fairseq - Hugging Face Transformers ## Návrh na zadanie diplomovej práce 1. Pripraviť prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí. 2. Vybrať konkrétnu metódu strojového prekladu pomocou neurónových sietí a podrobne ju opísať. 3. Pripraviť vybraný paralelný korpus do vhodnej podoby a pomocou vybranej metódy natrénovať model pre strojový preklad. 4. Vyhodnotiť experimenty a navrhnúť možnosti na zlepšenie. ## Diplomový projekt 2 Ciele na semester: 1. Natrénovať "kvalitný model" na preklad z angličtiny do slovenčiny. 2. Napísať draft diplomovej práce. Zásobník úloh: - natrénovať aj iné preklady (z a do češtiny). 17.12.2021 - Vylepšený draft práce. - Nové vyhodnotenie a výsledky modelu. - Trénovanie na česko-anglickom korpuse. Úlohy: - natrénujte na tomto EN-SK korpuse: https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0006-AAE0-A - Pokračujte v otvorených úlohách z minulého stretnutia. - Výsledky experiemntov zhrňte do tabuľky. Poznačte architektúru neurónovej siete, parametre trénovania. - Skúste rozbehať trénovanie na GPU. 26.11.2021 Natrénovaný prvý model OpenNMT na korpuse europarlament. Výslekdy vyzerajú OK, ale sú chaotické. Pravdepodobne bolo trénovanie prerušené predčasne. Zatiaľ nefunguje trénovanie na GPU. Úlohy: - Pokračujte v trénovaní Europarl. Modelu, skúste vylepšiť výsledky. - Trénovanie robte opakovateľným spôsobom - dajte na git nastavenia a trénovacie skripty, ale nie textové dáta. Len poznačte odkiaľ ste ich stiahli. - Pokračujte v práci na texte - myšlienky by mali logicky nasledovať za sebou. 12.11.2021 Práca na texte Úlohy: - Zlepšiť štruktúru práce - Dotrénovať a vyhodnotiť model slovenčina-angličtina. 28.10. Stav: - Vypracovaný draft článoku o transformeroch, treba vylepšiť. Článok je na ZP Wiki - Problém pri príprave trénovacích dát. Úlohy: - Naučte sa pripravovať textové dáta. Prejdite si knihu https://diveintopython3.net aspoň do 4 kapitoly. Vypracujte všetky príklady z nej. - Pokračujte v práci na článku. Treba doplniť odkazy do textu. Treba zlepšiť štruktúru a logickú náväznosť viet. Vysvetlite neznáme pojmy. - Zmente článok na draft diplomovej práce. Vypracujte osnovu diplomovej práce - napíšte názvy kapitol a ich obsah. Zaraďte tam text o transformeroch ktorý ste vypracovali. - Pripravte textové dáta do vhodnej podoby a spustite trénovanie. Stretnutie 30.9. Stav: - Len začaté štúdium článkov, ostatné úlohy zostávajú otvorené. Úlohy: - Pokračovať v úlohách zo 17.6. - Na trénovanie použite OpenNMT. - Vytvorte si repozitár dp2022 a do neho dajte skripty na natrénovanie modelov. Nedávajte tam veľké dáta, ale dajte tam skript na ich stiahnutie, napr. pomocou wget. - prepare-env.sh : ako ste vyttvorili Vaše prostredie - nainštalovali programy. - download-data.sh: ako ste získali dáta - prepare-data.sh: ako ste pripravili dáta - train1.sh: ako ste natrénovali model - evaluate1.sh: ako ste vyhodnotili model. ## Diplomový projekt 1 Stretnutie 17.6. - Splnené podmienky na zápočet. - Napísaný tutoriál a úvod do NMT Úlohy: - Skúste zlepšiť presnosť strojového prekladu. Modifikujte setup tak, aby sa výsledky zlepšili. - Preštudujte si architektúru neurónovej siete typu Transformer. Prečítajte si blogy a urobte poznámky, Prečítajte si článok s názvom "Attention is all you need.". Urobte si poznámky čo ste sa dozvedeli. - Preštudujte si architektúru typu enkóder-dekóder. Urobte si poznámky čo ste sa dozvedeli a z akých zdrojov. Využívajte vyhľadávač Scholar. Stretnutie 9.4. Stav: - Problém pri OpenNMT-py Quickstart - Nvidia driver nefunguje v prostredí WSL1. riešenie - vypnúť GPU training alebo trénovať na IDOC. - Napísané poznámky o NMT na cca 3 strany, na zpwiki Úlohy: - Vysvetlite vlastnými slovami čo to je neurónová sieť. Ak sa niečo dozviete z článku, povedzte vlastnými slovami čo ste sa dozvedeli a z akého článku ste sa to dozvedeli. - Vysvetlite vlastnými slovami ako prebieha neurónový preklad. Vysvetlite, ako sa text premení do formy ktorá je zrozumiteľná pre neurónovú sieť. Vysvetlite čo je výstupom neurónovej siete a ako sa ten výstup premení na text. - Napíšte to do markdown súboru na zpwiki. - Dokončite tutoriál OpenNMT-py. Stretnutie 12.3. Stav: - poznámky k článku "Google’s neural machine translation system . - Śtúdium ostatných článkov pokračuje. - Problém - aktuálna verzia OpenNMT-py nefunguje s pythonom 3.5. Je potrebné využit Anacondu. Úlohy: - Vypracujte poznámky k článkom - Pokračujte v tutoriáli OpenNMT-py cez prostredie Anaconda. - Poznámky pridajte na zpWiki vo formáte Markdown Stretnutie 18.2. Stav: - Vypracovaný článok z minulého semestra Úlohy: - V linuxovom prostredí (napr. idoc) si vytvorte python virtuálne prostredie: - vytvorte si adresár s projektom - mkdir ./venv - python3 -m virtualenv ./venv - source ./venv/bin/activate - Keď skončíte: deactivate - Prejdite si tutoriál https://github.com/OpenNMT/OpenNMT-py - Prečítjte si články z https://opennmt.net/OpenNMT-py/ref.html - Vypracujte poznámky k článku "Google’s neural machine translation system: bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016". Čo ste sa z čánku dozvedeli? ## Tímový projekt 2021 Ciel: - vytvoriť článok s témou "Štatistický preklad". - vytvoriť článok, publikovateľný na konferencii Virtuálne stretnutie 4.12.2020 Stav: - Vypracovaný prehľad na tri strany, prečítané 3 články. - Prístup treba zlepšiť. Úlohy na ďalšie stretnutie: - Pokračujte v písaní. Prečítajte si min. 10 článok na tému strojový preklad a ku každému napíšte čo ste sa dozvedeli. - Zamerajte sa na články o neurónovom strojovom preklade. Zistite a napíšte čo je to archtektúra encoder-decoder. Napíšte aké neurónové siete sa najviac používajú. - Pozrite [Ondrej Megela](/students/2018/ondrej_megela), [Martin Jancura](/students/2017/martin_jancura), [Dominik Nagy](/students/2016/dominik_nagy) - Navrhnite zadanie diplomovej práce. Virtuálne stretnutie 2.10.2020 Prečítajte si a vypracujte poznámky: - https://apps.dtic.mil/sti/pdfs/ADA466330.pdf - https://arxiv.org/abs/1409.1259 Pozrite si aj niektoré články ktoré sú v bibliografii. Zistitie, aké najnovšie voľne šíriteľné systémy na strojový preklad sú dostupné a napíšte ku nim krátku charakteristiku. Na akej metóde sú založené? V ktorom článku je táto metóda opísaná? Používajte scopus alebo scholar. Zapíšte si zaujímavé bibliografické odkazy a poznačte si, čo zaujímavé sa v nich nachádza. ## Bakalárska práca 2020 https://opac.crzp.sk/?fn=detailBiblioForm&sid=AFB64E0160B4F4E92146D39F9648 Názov bakalárskej práce: Metódy automatického prekladu Meno vedúceho: Ing. Daniel Hládek, PhD. Zadanie bakalárskej práce: 1. Pripraviť prehľad aktuálnych metód automatického prekladu. 2. Predstaviť vybranú metódu automatického prekladu. 3. Pripraviť vybraný paralelný korpus a vykonať niekoľko experimentov s automatickým prekladom. 4. Vyhodnotiť experimenty vhodnou metódou a navrhnúť možnosti na zlepšenie. ## Bakalársky projekt 2019 Prejsť si tutoriál a tréning zo stránky - (http://www.statmt.org/moses/?n=Moses.Overview) Preštudovať - (https://github.com/rain1024/slp2-pdf) - (http://folk.uio.no/plison/pdfs/talks/meetup_SMT.pdf) - (http://www.statmt.org/moses/?n=Moses.Overview) Kniha - J. JUHÁR, 2011, Rečové technológie v telekomunikačných a informačných systémoch. Košice: EQUILIBRIA, s.r.o., ISBN 978-80- 89284-75-7 Ciele projektu 1. Oboznámiť sa s metódami automatického prekladu. 2. Nainštalovať a spustiť program Moses. 3. Oboznámiť sa s programom Moses. 4. Vyskúšať model prekladu. Vypracovať rešerš na tému Metódy strojového prekladu a Paralelne korpusy na 5 strán od každého