forked from KEMT/zpwiki
248 lines
8.4 KiB
Markdown
248 lines
8.4 KiB
Markdown
---
|
||
title: Patrik Pavlišin
|
||
published: true
|
||
taxonomy:
|
||
category: [dp2022,bp2020,tp2021]
|
||
tag: [nmt,translation,nlp]
|
||
author: Daniel Hladek
|
||
---
|
||
# Patrik Pavlišin
|
||
|
||
# Diplomová práca 2022
|
||
|
||
|
||
Predbežný názov: Neurónový strojový preklad
|
||
|
||
Návrh na nástroje pre strojový preklad:
|
||
|
||
- OpenNMT-py
|
||
- Fairseq
|
||
- Hugging Face Transformers
|
||
|
||
|
||
## Návrh na zadanie diplomovej práce
|
||
|
||
1. Pripraviť prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí.
|
||
2. Vybrať konkrétnu metódu strojového prekladu pomocou neurónových sietí a podrobne ju opísať.
|
||
3. Pripraviť vybraný paralelný korpus do vhodnej podoby a pomocou vybranej metódy natrénovať model pre strojový preklad.
|
||
4. Vyhodnotiť experimenty a navrhnúť možnosti na zlepšenie.
|
||
|
||
## Diplomový projekt 2
|
||
|
||
Ciele na semester:
|
||
|
||
1. Natrénovať "kvalitný model" na preklad z angličtiny do slovenčiny.
|
||
2. Napísať draft diplomovej práce.
|
||
|
||
Zásobník úloh:
|
||
|
||
- natrénovať aj iné preklady (z a do češtiny).
|
||
|
||
17.12.2021
|
||
|
||
- Vylepšený draft práce.
|
||
- Nové vyhodnotenie a výsledky modelu.
|
||
- Trénovanie na česko-anglickom korpuse.
|
||
|
||
Úlohy:
|
||
|
||
- natrénujte na tomto EN-SK korpuse: https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0006-AAE0-A
|
||
- Pokračujte v otvorených úlohách z minulého stretnutia.
|
||
- Výsledky experiemntov zhrňte do tabuľky. Poznačte architektúru neurónovej siete, parametre trénovania.
|
||
- Skúste rozbehať trénovanie na GPU.
|
||
|
||
|
||
|
||
|
||
26.11.2021
|
||
|
||
Natrénovaný prvý model OpenNMT na korpuse europarlament.
|
||
Výslekdy vyzerajú OK, ale sú chaotické. Pravdepodobne bolo trénovanie prerušené predčasne. Zatiaľ nefunguje trénovanie na GPU.
|
||
|
||
Úlohy:
|
||
|
||
- Pokračujte v trénovaní Europarl. Modelu, skúste vylepšiť výsledky.
|
||
- Trénovanie robte opakovateľným spôsobom - dajte na git nastavenia a trénovacie skripty, ale nie textové dáta. Len poznačte odkiaľ ste ich stiahli.
|
||
- Pokračujte v práci na texte - myšlienky by mali logicky nasledovať za sebou.
|
||
|
||
|
||
12.11.2021
|
||
|
||
Práca na texte
|
||
|
||
Úlohy:
|
||
|
||
- Zlepšiť štruktúru práce
|
||
- Dotrénovať a vyhodnotiť model slovenčina-angličtina.
|
||
|
||
28.10.
|
||
|
||
Stav:
|
||
|
||
- Vypracovaný draft článoku o transformeroch, treba vylepšiť. Článok je na ZP Wiki
|
||
- Problém pri príprave trénovacích dát.
|
||
|
||
Úlohy:
|
||
|
||
- Naučte sa pripravovať textové dáta. Prejdite si knihu https://diveintopython3.net aspoň do 4 kapitoly. Vypracujte všetky príklady z nej.
|
||
- Pokračujte v práci na článku. Treba doplniť odkazy do textu. Treba zlepšiť štruktúru a logickú náväznosť viet. Vysvetlite neznáme pojmy.
|
||
- Zmente článok na draft diplomovej práce. Vypracujte osnovu diplomovej práce - napíšte názvy kapitol a ich obsah. Zaraďte tam text o transformeroch ktorý ste vypracovali.
|
||
- Pripravte textové dáta do vhodnej podoby a spustite trénovanie.
|
||
|
||
|
||
Stretnutie 30.9.
|
||
|
||
Stav:
|
||
|
||
- Len začaté štúdium článkov, ostatné úlohy zostávajú otvorené.
|
||
|
||
Úlohy:
|
||
|
||
- Pokračovať v úlohách zo 17.6.
|
||
- Na trénovanie použite OpenNMT.
|
||
- Vytvorte si repozitár dp2022 a do neho dajte skripty na natrénovanie modelov. Nedávajte tam veľké dáta, ale dajte tam skript na ich stiahnutie, napr. pomocou wget.
|
||
- prepare-env.sh : ako ste vyttvorili Vaše prostredie - nainštalovali programy.
|
||
- download-data.sh: ako ste získali dáta
|
||
- prepare-data.sh: ako ste pripravili dáta
|
||
- train1.sh: ako ste natrénovali model
|
||
- evaluate1.sh: ako ste vyhodnotili model.
|
||
|
||
## Diplomový projekt 1
|
||
|
||
Stretnutie 17.6.
|
||
|
||
- Splnené podmienky na zápočet.
|
||
- Napísaný tutoriál a úvod do NMT
|
||
|
||
Úlohy:
|
||
|
||
- Skúste zlepšiť presnosť strojového prekladu. Modifikujte setup tak, aby sa výsledky zlepšili.
|
||
- Preštudujte si architektúru neurónovej siete typu Transformer. Prečítajte si blogy a urobte poznámky,
|
||
Prečítajte si článok s názvom "Attention is all you need.". Urobte si poznámky čo ste sa dozvedeli.
|
||
- Preštudujte si architektúru typu enkóder-dekóder. Urobte si poznámky čo ste sa dozvedeli a z akých zdrojov.
|
||
Využívajte vyhľadávač Scholar.
|
||
|
||
Stretnutie 9.4.
|
||
|
||
Stav:
|
||
|
||
- Problém pri OpenNMT-py Quickstart - Nvidia driver nefunguje v prostredí WSL1. riešenie - vypnúť GPU training alebo trénovať na IDOC.
|
||
- Napísané poznámky o NMT na cca 3 strany, na zpwiki
|
||
|
||
Úlohy:
|
||
|
||
- Vysvetlite vlastnými slovami čo to je neurónová sieť. Ak sa niečo dozviete z článku, povedzte vlastnými slovami čo ste sa dozvedeli a z akého článku ste sa to dozvedeli.
|
||
- Vysvetlite vlastnými slovami ako prebieha neurónový preklad. Vysvetlite, ako sa text premení do formy ktorá je zrozumiteľná pre neurónovú sieť. Vysvetlite čo je výstupom neurónovej siete a ako sa ten výstup premení na text.
|
||
- Napíšte to do markdown súboru na zpwiki.
|
||
- Dokončite tutoriál OpenNMT-py.
|
||
|
||
|
||
Stretnutie 12.3.
|
||
|
||
Stav:
|
||
|
||
- poznámky k článku "Google’s neural machine translation system .
|
||
- Śtúdium ostatných článkov pokračuje.
|
||
- Problém - aktuálna verzia OpenNMT-py nefunguje s pythonom 3.5. Je potrebné využit Anacondu.
|
||
|
||
Úlohy:
|
||
|
||
- Vypracujte poznámky k článkom
|
||
- Pokračujte v tutoriáli OpenNMT-py cez prostredie Anaconda.
|
||
- Poznámky pridajte na zpWiki vo formáte Markdown
|
||
|
||
|
||
|
||
Stretnutie 18.2.
|
||
|
||
Stav:
|
||
- Vypracovaný článok z minulého semestra
|
||
|
||
Úlohy:
|
||
|
||
- V linuxovom prostredí (napr. idoc) si vytvorte python virtuálne prostredie:
|
||
- vytvorte si adresár s projektom
|
||
- mkdir ./venv
|
||
- python3 -m virtualenv ./venv
|
||
- source ./venv/bin/activate
|
||
- Keď skončíte: deactivate
|
||
- Prejdite si tutoriál https://github.com/OpenNMT/OpenNMT-py
|
||
- Prečítjte si články z https://opennmt.net/OpenNMT-py/ref.html
|
||
- Vypracujte poznámky k článku "Google’s neural machine translation system: bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016". Čo ste sa z čánku dozvedeli?
|
||
|
||
|
||
## Tímový projekt 2021
|
||
|
||
Ciel:
|
||
- vytvoriť článok s témou "Štatistický preklad".
|
||
- vytvoriť článok, publikovateľný na konferencii
|
||
|
||
Virtuálne stretnutie 4.12.2020
|
||
|
||
Stav:
|
||
|
||
- Vypracovaný prehľad na tri strany, prečítané 3 články.
|
||
- Prístup treba zlepšiť.
|
||
|
||
Úlohy na ďalšie stretnutie:
|
||
|
||
- Pokračujte v písaní. Prečítajte si min. 10 článok na tému strojový preklad a ku každému napíšte čo ste sa dozvedeli.
|
||
- Zamerajte sa na články o neurónovom strojovom preklade. Zistite a napíšte čo je to archtektúra encoder-decoder. Napíšte aké neurónové siete sa najviac používajú.
|
||
- Pozrite [Ondrej Megela](/students/2018/ondrej_megela), [Martin Jancura](/students/2017/martin_jancura), [Dominik Nagy](/students/2016/dominik_nagy)
|
||
- Navrhnite zadanie diplomovej práce.
|
||
|
||
|
||
Virtuálne stretnutie 2.10.2020
|
||
|
||
Prečítajte si a vypracujte poznámky:
|
||
|
||
- https://apps.dtic.mil/sti/pdfs/ADA466330.pdf
|
||
- https://arxiv.org/abs/1409.1259
|
||
|
||
Pozrite si aj niektoré články ktoré sú v bibliografii.
|
||
|
||
Zistitie, aké najnovšie voľne šíriteľné systémy na strojový preklad sú dostupné a napíšte ku nim krátku charakteristiku. Na akej metóde sú založené? V ktorom článku je táto metóda opísaná? Používajte scopus alebo scholar.
|
||
Zapíšte si zaujímavé bibliografické odkazy a poznačte si, čo zaujímavé sa v nich nachádza.
|
||
|
||
|
||
## Bakalárska práca 2020
|
||
|
||
https://opac.crzp.sk/?fn=detailBiblioForm&sid=AFB64E0160B4F4E92146D39F9648
|
||
|
||
Názov bakalárskej práce: Metódy automatického prekladu
|
||
|
||
Meno vedúceho: Ing. Daniel Hládek, PhD.
|
||
|
||
Zadanie bakalárskej práce:
|
||
|
||
1. Pripraviť prehľad aktuálnych metód automatického prekladu.
|
||
2. Predstaviť vybranú metódu automatického prekladu.
|
||
3. Pripraviť vybraný paralelný korpus a vykonať niekoľko experimentov s automatickým prekladom.
|
||
4. Vyhodnotiť experimenty vhodnou metódou a navrhnúť možnosti na zlepšenie.
|
||
|
||
## Bakalársky projekt 2019
|
||
|
||
Prejsť si tutoriál a tréning zo stránky
|
||
|
||
- (http://www.statmt.org/moses/?n=Moses.Overview)
|
||
|
||
Preštudovať
|
||
|
||
- (https://github.com/rain1024/slp2-pdf)
|
||
- (http://folk.uio.no/plison/pdfs/talks/meetup_SMT.pdf)
|
||
- (http://www.statmt.org/moses/?n=Moses.Overview)
|
||
|
||
Kniha
|
||
|
||
- J. JUHÁR, 2011, Rečové technológie v telekomunikačných a informačných systémoch. Košice: EQUILIBRIA, s.r.o., ISBN 978-80- 89284-75-7
|
||
|
||
Ciele projektu
|
||
|
||
1. Oboznámiť sa s metódami automatického prekladu.
|
||
2. Nainštalovať a spustiť program Moses.
|
||
3. Oboznámiť sa s programom Moses.
|
||
4. Vyskúšať model prekladu.
|
||
|
||
Vypracovať rešerš na tému Metódy strojového prekladu a Paralelne korpusy na 5 strán od každého
|
||
|