dmytro_ushatenko/pages/students/2016/patrik_pavlisin/README.md
2022-02-18 09:53:28 +01:00

282 lines
9.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: Patrik Pavlišin
published: true
taxonomy:
category: [dp2022,bp2020,tp2021]
tag: [nmt,translation,nlp]
author: Daniel Hladek
---
# Patrik Pavlišin
# Diplomová práca 2022
Predbežný názov: Neurónový strojový preklad
Návrh na nástroje pre strojový preklad:
- OpenNMT-py
- Fairseq
- Hugging Face Transformers
## Návrh na zadanie diplomovej práce
1. Pripraviť prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí.
2. Vybrať konkrétnu metódu strojového prekladu pomocou neurónových sietí a podrobne ju opísať.
3. Pripraviť vybraný paralelný korpus do vhodnej podoby a pomocou vybranej metódy natrénovať model pre strojový preklad.
4. Vyhodnotiť experimenty a navrhnúť možnosti na zlepšenie.
## Diplomový projekt 2
Ciele na semester:
1. Natrénovať "kvalitný model" na preklad z angličtiny do slovenčiny.
2. Napísať draft diplomovej práce.
Zásobník úloh:
- natrénovať aj iné preklady (z a do češtiny).
18.2.2022
- Beží trénovanie na idoc
Úlohy:
Zmeňte štruktúru práce podľa tohoto myšienkového postupu.
Pridajte nové časti a vyradte nerelevantné časti.
1. Vysvetlite čo je to neurónový strojovyý preklad.
2. Vysvetlite, čo je to neurónová sieť.
3. Povedze aké typy neurónových sietí sa používajú na strojový preklad.
4. Vyberte konkrétnu neurónovú sieť (tú ktorá sa používa v OPennmt) a podrobne opíšte ako funguje.
5. Predstavte Open NMT.
6. Povedzte o dátach ktoré ste použili (dorobiť).
7. Vysvetlite, ako ste pripravili experimenty, ako ste ich spustili a aké výlsekdy ste dosiahli (dorobiť).
8. Sumarizujte experimenty a určite miesto na zlepšenie (dorobiť).
27.1.2022
- Hotovy model na CZ-EN
Úlohy:
- Aktualizujte trénovacie skripty na gite.
- Rozbehajte GPU trénovnaie na idoc. Vyriešte technické problémy.
- Natrénujte viacero modelov s viacerými nastaveniami a výsledkyž dajte do tabuľky. Ku každému modelu si poznačte výsledné BLEU. Výsledky skontrolujte aj osobne.
- Pokračujte na texte práce. Odstrániť nezmyselné časti. Pri ďalšom stretnutí prezentujte stav textovej časti.
17.12.2021
- Vylepšený draft práce.
- Nové vyhodnotenie a výsledky modelu.
- Trénovanie na česko-anglickom korpuse.
Úlohy:
- natrénujte na tomto EN-SK korpuse: https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0006-AAE0-A
- Pokračujte v otvorených úlohách z minulého stretnutia.
- Výsledky experiemntov zhrňte do tabuľky. Poznačte architektúru neurónovej siete, parametre trénovania.
- Skúste rozbehať trénovanie na GPU.
1. Vytvorte nové conda prostredie. Spustite:
conda install pytorch=1.8.1cudatoolkit=10.1 -c pytorch
2. Nainštalujte OpenNMT.
26.11.2021
Natrénovaný prvý model OpenNMT na korpuse europarlament.
Výslekdy vyzerajú OK, ale sú chaotické. Pravdepodobne bolo trénovanie prerušené predčasne. Zatiaľ nefunguje trénovanie na GPU.
Úlohy:
- Pokračujte v trénovaní Europarl. Modelu, skúste vylepšiť výsledky.
- Trénovanie robte opakovateľným spôsobom - dajte na git nastavenia a trénovacie skripty, ale nie textové dáta. Len poznačte odkiaľ ste ich stiahli.
- Pokračujte v práci na texte - myšlienky by mali logicky nasledovať za sebou.
12.11.2021
Práca na texte
Úlohy:
- Zlepšiť štruktúru práce
- Dotrénovať a vyhodnotiť model slovenčina-angličtina.
28.10.
Stav:
- Vypracovaný draft článoku o transformeroch, treba vylepšiť. Článok je na ZP Wiki
- Problém pri príprave trénovacích dát.
Úlohy:
- Naučte sa pripravovať textové dáta. Prejdite si knihu https://diveintopython3.net aspoň do 4 kapitoly. Vypracujte všetky príklady z nej.
- Pokračujte v práci na článku. Treba doplniť odkazy do textu. Treba zlepšiť štruktúru a logickú náväznosť viet. Vysvetlite neznáme pojmy.
- Zmente článok na draft diplomovej práce. Vypracujte osnovu diplomovej práce - napíšte názvy kapitol a ich obsah. Zaraďte tam text o transformeroch ktorý ste vypracovali.
- Pripravte textové dáta do vhodnej podoby a spustite trénovanie.
Stretnutie 30.9.
Stav:
- Len začaté štúdium článkov, ostatné úlohy zostávajú otvorené.
Úlohy:
- Pokračovať v úlohách zo 17.6.
- Na trénovanie použite OpenNMT.
- Vytvorte si repozitár dp2022 a do neho dajte skripty na natrénovanie modelov. Nedávajte tam veľké dáta, ale dajte tam skript na ich stiahnutie, napr. pomocou wget.
- prepare-env.sh : ako ste vyttvorili Vaše prostredie - nainštalovali programy.
- download-data.sh: ako ste získali dáta
- prepare-data.sh: ako ste pripravili dáta
- train1.sh: ako ste natrénovali model
- evaluate1.sh: ako ste vyhodnotili model.
## Diplomový projekt 1
Stretnutie 17.6.
- Splnené podmienky na zápočet.
- Napísaný tutoriál a úvod do NMT
Úlohy:
- Skúste zlepšiť presnosť strojového prekladu. Modifikujte setup tak, aby sa výsledky zlepšili.
- Preštudujte si architektúru neurónovej siete typu Transformer. Prečítajte si blogy a urobte poznámky,
Prečítajte si článok s názvom "Attention is all you need.". Urobte si poznámky čo ste sa dozvedeli.
- Preštudujte si architektúru typu enkóder-dekóder. Urobte si poznámky čo ste sa dozvedeli a z akých zdrojov.
Využívajte vyhľadávač Scholar.
Stretnutie 9.4.
Stav:
- Problém pri OpenNMT-py Quickstart - Nvidia driver nefunguje v prostredí WSL1. riešenie - vypnúť GPU training alebo trénovať na IDOC.
- Napísané poznámky o NMT na cca 3 strany, na zpwiki
Úlohy:
- Vysvetlite vlastnými slovami čo to je neurónová sieť. Ak sa niečo dozviete z článku, povedzte vlastnými slovami čo ste sa dozvedeli a z akého článku ste sa to dozvedeli.
- Vysvetlite vlastnými slovami ako prebieha neurónový preklad. Vysvetlite, ako sa text premení do formy ktorá je zrozumiteľná pre neurónovú sieť. Vysvetlite čo je výstupom neurónovej siete a ako sa ten výstup premení na text.
- Napíšte to do markdown súboru na zpwiki.
- Dokončite tutoriál OpenNMT-py.
Stretnutie 12.3.
Stav:
- poznámky k článku "Googles neural machine translation system .
- Śtúdium ostatných článkov pokračuje.
- Problém - aktuálna verzia OpenNMT-py nefunguje s pythonom 3.5. Je potrebné využit Anacondu.
Úlohy:
- Vypracujte poznámky k článkom
- Pokračujte v tutoriáli OpenNMT-py cez prostredie Anaconda.
- Poznámky pridajte na zpWiki vo formáte Markdown
Stretnutie 18.2.
Stav:
- Vypracovaný článok z minulého semestra
Úlohy:
- V linuxovom prostredí (napr. idoc) si vytvorte python virtuálne prostredie:
- vytvorte si adresár s projektom
- mkdir ./venv
- python3 -m virtualenv ./venv
- source ./venv/bin/activate
- Keď skončíte: deactivate
- Prejdite si tutoriál https://github.com/OpenNMT/OpenNMT-py
- Prečítjte si články z https://opennmt.net/OpenNMT-py/ref.html
- Vypracujte poznámky k článku "Googles neural machine translation system: bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016". Čo ste sa z čánku dozvedeli?
## Tímový projekt 2021
Ciel:
- vytvoriť článok s témou "Štatistický preklad".
- vytvoriť článok, publikovateľný na konferencii
Virtuálne stretnutie 4.12.2020
Stav:
- Vypracovaný prehľad na tri strany, prečítané 3 články.
- Prístup treba zlepšiť.
Úlohy na ďalšie stretnutie:
- Pokračujte v písaní. Prečítajte si min. 10 článok na tému strojový preklad a ku každému napíšte čo ste sa dozvedeli.
- Zamerajte sa na články o neurónovom strojovom preklade. Zistite a napíšte čo je to archtektúra encoder-decoder. Napíšte aké neurónové siete sa najviac používajú.
- Pozrite [Ondrej Megela](/students/2018/ondrej_megela), [Martin Jancura](/students/2017/martin_jancura), [Dominik Nagy](/students/2016/dominik_nagy)
- Navrhnite zadanie diplomovej práce.
Virtuálne stretnutie 2.10.2020
Prečítajte si a vypracujte poznámky:
- https://apps.dtic.mil/sti/pdfs/ADA466330.pdf
- https://arxiv.org/abs/1409.1259
Pozrite si aj niektoré články ktoré sú v bibliografii.
Zistitie, aké najnovšie voľne šíriteľné systémy na strojový preklad sú dostupné a napíšte ku nim krátku charakteristiku. Na akej metóde sú založené? V ktorom článku je táto metóda opísaná? Používajte scopus alebo scholar.
Zapíšte si zaujímavé bibliografické odkazy a poznačte si, čo zaujímavé sa v nich nachádza.
## Bakalárska práca 2020
https://opac.crzp.sk/?fn=detailBiblioForm&sid=AFB64E0160B4F4E92146D39F9648
Názov bakalárskej práce: Metódy automatického prekladu
Meno vedúceho: Ing. Daniel Hládek, PhD.
Zadanie bakalárskej práce:
1. Pripraviť prehľad aktuálnych metód automatického prekladu.
2. Predstaviť vybranú metódu automatického prekladu.
3. Pripraviť vybraný paralelný korpus a vykonať niekoľko experimentov s automatickým prekladom.
4. Vyhodnotiť experimenty vhodnou metódou a navrhnúť možnosti na zlepšenie.
## Bakalársky projekt 2019
Prejsť si tutoriál a tréning zo stránky
- (http://www.statmt.org/moses/?n=Moses.Overview)
Preštudovať
- (https://github.com/rain1024/slp2-pdf)
- (http://folk.uio.no/plison/pdfs/talks/meetup_SMT.pdf)
- (http://www.statmt.org/moses/?n=Moses.Overview)
Kniha
- J. JUHÁR, 2011, Rečové technológie v telekomunikačných a informačných systémoch. Košice: EQUILIBRIA, s.r.o., ISBN 978-80- 89284-75-7
Ciele projektu
1. Oboznámiť sa s metódami automatického prekladu.
2. Nainštalovať a spustiť program Moses.
3. Oboznámiť sa s programom Moses.
4. Vyskúšať model prekladu.
Vypracovať rešerš na tému Metódy strojového prekladu a Paralelne korpusy na 5 strán od každého