zpwiki/pages/students/2016/patrik_pavlisin
2021-12-17 10:13:12 +00:00
..
dp21
dp22
dp2022
tp20
README.md

title published taxonomy
Patrik Pavlišin true
category tag author
dp2022
bp2020
tp2021
nmt
translation
nlp
Daniel Hladek

Patrik Pavlišin

Diplomová práca 2022

Predbežný názov: Neurónový strojový preklad

Návrh na nástroje pre strojový preklad:

  • OpenNMT-py
  • Fairseq
  • Hugging Face Transformers

Návrh na zadanie diplomovej práce

  1. Pripraviť prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí.
  2. Vybrať konkrétnu metódu strojového prekladu pomocou neurónových sietí a podrobne ju opísať.
  3. Pripraviť vybraný paralelný korpus do vhodnej podoby a pomocou vybranej metódy natrénovať model pre strojový preklad.
  4. Vyhodnotiť experimenty a navrhnúť možnosti na zlepšenie.

Diplomový projekt 2

Ciele na semester:

  1. Natrénovať "kvalitný model" na preklad z angličtiny do slovenčiny.
  2. Napísať draft diplomovej práce.

Zásobník úloh:

  • natrénovať aj iné preklady (z a do češtiny).

17.12.2021

  • Vylepšený draft práce.
  • Nové vyhodnotenie a výsledky modelu.
  • Trénovanie na česko-anglickom korpuse.

Úlohy:

  1. Vytvorte nové conda prostredie. Spustite: conda install pytorch=1.8.1cudatoolkit=10.1 -c pytorch
  2. Nainštalujte OpenNMT.

26.11.2021

Natrénovaný prvý model OpenNMT na korpuse europarlament. Výslekdy vyzerajú OK, ale sú chaotické. Pravdepodobne bolo trénovanie prerušené predčasne. Zatiaľ nefunguje trénovanie na GPU.

Úlohy:

  • Pokračujte v trénovaní Europarl. Modelu, skúste vylepšiť výsledky.
  • Trénovanie robte opakovateľným spôsobom - dajte na git nastavenia a trénovacie skripty, ale nie textové dáta. Len poznačte odkiaľ ste ich stiahli.
  • Pokračujte v práci na texte - myšlienky by mali logicky nasledovať za sebou.

12.11.2021

Práca na texte

Úlohy:

  • Zlepšiť štruktúru práce
  • Dotrénovať a vyhodnotiť model slovenčina-angličtina.

28.10.

Stav:

  • Vypracovaný draft článoku o transformeroch, treba vylepšiť. Článok je na ZP Wiki
  • Problém pri príprave trénovacích dát.

Úlohy:

  • Naučte sa pripravovať textové dáta. Prejdite si knihu https://diveintopython3.net aspoň do 4 kapitoly. Vypracujte všetky príklady z nej.
  • Pokračujte v práci na článku. Treba doplniť odkazy do textu. Treba zlepšiť štruktúru a logickú náväznosť viet. Vysvetlite neznáme pojmy.
  • Zmente článok na draft diplomovej práce. Vypracujte osnovu diplomovej práce - napíšte názvy kapitol a ich obsah. Zaraďte tam text o transformeroch ktorý ste vypracovali.
  • Pripravte textové dáta do vhodnej podoby a spustite trénovanie.

Stretnutie 30.9.

Stav:

  • Len začaté štúdium článkov, ostatné úlohy zostávajú otvorené.

Úlohy:

  • Pokračovať v úlohách zo 17.6.
  • Na trénovanie použite OpenNMT.
  • Vytvorte si repozitár dp2022 a do neho dajte skripty na natrénovanie modelov. Nedávajte tam veľké dáta, ale dajte tam skript na ich stiahnutie, napr. pomocou wget.
    • prepare-env.sh : ako ste vyttvorili Vaše prostredie - nainštalovali programy.
    • download-data.sh: ako ste získali dáta
    • prepare-data.sh: ako ste pripravili dáta
    • train1.sh: ako ste natrénovali model
    • evaluate1.sh: ako ste vyhodnotili model.

Diplomový projekt 1

Stretnutie 17.6.

  • Splnené podmienky na zápočet.
  • Napísaný tutoriál a úvod do NMT

Úlohy:

  • Skúste zlepšiť presnosť strojového prekladu. Modifikujte setup tak, aby sa výsledky zlepšili.
  • Preštudujte si architektúru neurónovej siete typu Transformer. Prečítajte si blogy a urobte poznámky, Prečítajte si článok s názvom "Attention is all you need.". Urobte si poznámky čo ste sa dozvedeli.
  • Preštudujte si architektúru typu enkóder-dekóder. Urobte si poznámky čo ste sa dozvedeli a z akých zdrojov. Využívajte vyhľadávač Scholar.

Stretnutie 9.4.

Stav:

  • Problém pri OpenNMT-py Quickstart - Nvidia driver nefunguje v prostredí WSL1. riešenie - vypnúť GPU training alebo trénovať na IDOC.
  • Napísané poznámky o NMT na cca 3 strany, na zpwiki

Úlohy:

  • Vysvetlite vlastnými slovami čo to je neurónová sieť. Ak sa niečo dozviete z článku, povedzte vlastnými slovami čo ste sa dozvedeli a z akého článku ste sa to dozvedeli.
  • Vysvetlite vlastnými slovami ako prebieha neurónový preklad. Vysvetlite, ako sa text premení do formy ktorá je zrozumiteľná pre neurónovú sieť. Vysvetlite čo je výstupom neurónovej siete a ako sa ten výstup premení na text.
  • Napíšte to do markdown súboru na zpwiki.
  • Dokončite tutoriál OpenNMT-py.

Stretnutie 12.3.

Stav:

  • poznámky k článku "Googles neural machine translation system .
  • Śtúdium ostatných článkov pokračuje.
  • Problém - aktuálna verzia OpenNMT-py nefunguje s pythonom 3.5. Je potrebné využit Anacondu.

Úlohy:

  • Vypracujte poznámky k článkom
  • Pokračujte v tutoriáli OpenNMT-py cez prostredie Anaconda.
  • Poznámky pridajte na zpWiki vo formáte Markdown

Stretnutie 18.2.

Stav:

  • Vypracovaný článok z minulého semestra

Úlohy:

  • V linuxovom prostredí (napr. idoc) si vytvorte python virtuálne prostredie:
    • vytvorte si adresár s projektom
    • mkdir ./venv
    • python3 -m virtualenv ./venv
    • source ./venv/bin/activate
    • Keď skončíte: deactivate
  • Prejdite si tutoriál https://github.com/OpenNMT/OpenNMT-py
  • Prečítjte si články z https://opennmt.net/OpenNMT-py/ref.html
  • Vypracujte poznámky k článku "Googles neural machine translation system: bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016". Čo ste sa z čánku dozvedeli?

Tímový projekt 2021

Ciel:

  • vytvoriť článok s témou "Štatistický preklad".
  • vytvoriť článok, publikovateľný na konferencii

Virtuálne stretnutie 4.12.2020

Stav:

  • Vypracovaný prehľad na tri strany, prečítané 3 články.
  • Prístup treba zlepšiť.

Úlohy na ďalšie stretnutie:

  • Pokračujte v písaní. Prečítajte si min. 10 článok na tému strojový preklad a ku každému napíšte čo ste sa dozvedeli.
  • Zamerajte sa na články o neurónovom strojovom preklade. Zistite a napíšte čo je to archtektúra encoder-decoder. Napíšte aké neurónové siete sa najviac používajú.
  • Pozrite Ondrej Megela, Martin Jancura, Dominik Nagy
  • Navrhnite zadanie diplomovej práce.

Virtuálne stretnutie 2.10.2020

Prečítajte si a vypracujte poznámky:

Pozrite si aj niektoré články ktoré sú v bibliografii.

Zistitie, aké najnovšie voľne šíriteľné systémy na strojový preklad sú dostupné a napíšte ku nim krátku charakteristiku. Na akej metóde sú založené? V ktorom článku je táto metóda opísaná? Používajte scopus alebo scholar. Zapíšte si zaujímavé bibliografické odkazy a poznačte si, čo zaujímavé sa v nich nachádza.

Bakalárska práca 2020

https://opac.crzp.sk/?fn=detailBiblioForm&sid=AFB64E0160B4F4E92146D39F9648

Názov bakalárskej práce: Metódy automatického prekladu

Meno vedúceho: Ing. Daniel Hládek, PhD.

Zadanie bakalárskej práce:

  1. Pripraviť prehľad aktuálnych metód automatického prekladu.
  2. Predstaviť vybranú metódu automatického prekladu.
  3. Pripraviť vybraný paralelný korpus a vykonať niekoľko experimentov s automatickým prekladom.
  4. Vyhodnotiť experimenty vhodnou metódou a navrhnúť možnosti na zlepšenie.

Bakalársky projekt 2019

Prejsť si tutoriál a tréning zo stránky

Preštudovať

Kniha

  • J. JUHÁR, 2011, Rečové technológie v telekomunikačných a informačných systémoch. Košice: EQUILIBRIA, s.r.o., ISBN 978-80- 89284-75-7

Ciele projektu

  1. Oboznámiť sa s metódami automatického prekladu.
  2. Nainštalovať a spustiť program Moses.
  3. Oboznámiť sa s programom Moses.
  4. Vyskúšať model prekladu.

Vypracovať rešerš na tému Metódy strojového prekladu a Paralelne korpusy na 5 strán od každého