forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			282 lines
		
	
	
		
			9.6 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			282 lines
		
	
	
		
			9.6 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | ||
| title: Patrik Pavlišin
 | ||
| published: true
 | ||
| taxonomy:
 | ||
|     category: [dp2022,bp2020,tp2021]
 | ||
|     tag: [nmt,translation,nlp]
 | ||
|     author: Daniel Hladek
 | ||
| ---
 | ||
| # Patrik Pavlišin
 | ||
| 
 | ||
| # Diplomová práca 2022
 | ||
| 
 | ||
| 
 | ||
| Predbežný názov: Neurónový strojový preklad
 | ||
| 
 | ||
| Návrh na nástroje pre strojový preklad:
 | ||
| 
 | ||
| - OpenNMT-py
 | ||
| - Fairseq
 | ||
| - Hugging Face Transformers
 | ||
| 
 | ||
| 
 | ||
| ## Návrh na zadanie diplomovej práce
 | ||
| 
 | ||
| 1. Pripraviť prehľad aktuálnych metód strojového  prekladu pomocou neurónových sietí. 
 | ||
| 2. Vybrať konkrétnu metódu  strojového prekladu pomocou neurónových sietí a podrobne ju opísať.
 | ||
| 3. Pripraviť vybraný paralelný korpus do vhodnej podoby a pomocou vybranej metódy natrénovať model pre strojový preklad. 
 | ||
| 4. Vyhodnotiť experimenty  a navrhnúť možnosti na zlepšenie.
 | ||
| 
 | ||
| ## Diplomový projekt 2
 | ||
| 
 | ||
| Ciele na semester:
 | ||
| 
 | ||
| 1. Natrénovať "kvalitný model" na preklad z angličtiny do slovenčiny.
 | ||
| 2. Napísať draft diplomovej práce.
 | ||
| 
 | ||
| Zásobník úloh:
 | ||
| 
 | ||
| - natrénovať aj iné preklady (z a do češtiny).
 | ||
| 
 | ||
| 18.2.2022
 | ||
| 
 | ||
| - Beží trénovanie na idoc
 | ||
| 
 | ||
| Úlohy:
 | ||
| 
 | ||
| Zmeňte štruktúru práce podľa tohoto myšienkového postupu.
 | ||
| Pridajte nové časti a vyradte nerelevantné časti.
 | ||
| 
 | ||
| 1. Vysvetlite čo je to neurónový strojovyý preklad.
 | ||
| 2. Vysvetlite, čo je to neurónová sieť.
 | ||
| 3. Povedze aké typy neurónových sietí sa používajú na strojový preklad.
 | ||
| 4. Vyberte konkrétnu neurónovú sieť (tú ktorá sa používa v OPennmt) a podrobne opíšte ako funguje.
 | ||
| 5. Predstavte Open NMT.
 | ||
| 6. Povedzte o dátach ktoré ste použili (dorobiť).
 | ||
| 7. Vysvetlite, ako ste pripravili experimenty, ako ste ich spustili a aké výlsekdy ste dosiahli (dorobiť).
 | ||
| 8. Sumarizujte experimenty a určite miesto na zlepšenie (dorobiť).
 | ||
| 
 | ||
| 27.1.2022
 | ||
| 
 | ||
| - Hotovy model na CZ-EN
 | ||
| 
 | ||
| Úlohy:
 | ||
| 
 | ||
| - Aktualizujte trénovacie skripty na gite.
 | ||
| - Rozbehajte GPU trénovnaie na idoc. Vyriešte technické problémy.
 | ||
| - Natrénujte viacero modelov s viacerými nastaveniami a výsledkyž dajte do tabuľky. Ku každému modelu si poznačte výsledné BLEU. Výsledky skontrolujte aj osobne. 
 | ||
| - Pokračujte na texte práce. Odstrániť nezmyselné časti. Pri ďalšom stretnutí prezentujte stav textovej časti.
 | ||
| 
 | ||
| 
 | ||
| 17.12.2021
 | ||
| 
 | ||
| - Vylepšený draft práce.
 | ||
| - Nové vyhodnotenie a výsledky modelu.
 | ||
| - Trénovanie na česko-anglickom korpuse.
 | ||
| 
 | ||
| Úlohy:
 | ||
| 
 | ||
| - natrénujte na tomto EN-SK korpuse: https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0006-AAE0-A
 | ||
| - Pokračujte v otvorených úlohách z minulého stretnutia.
 | ||
| - Výsledky experiemntov zhrňte do tabuľky. Poznačte architektúru neurónovej siete, parametre trénovania.
 | ||
| - Skúste rozbehať trénovanie na GPU. 
 | ||
| 
 | ||
| 1. Vytvorte nové conda prostredie. Spustite:
 | ||
| 
 | ||
|     conda install pytorch=1.8.1cudatoolkit=10.1 -c pytorch
 | ||
| 
 | ||
| 2. Nainštalujte OpenNMT.
 | ||
| 
 | ||
| 
 | ||
| 26.11.2021
 | ||
| 
 | ||
| Natrénovaný prvý model OpenNMT na korpuse europarlament.
 | ||
| Výslekdy vyzerajú OK, ale sú chaotické. Pravdepodobne bolo trénovanie prerušené predčasne. Zatiaľ nefunguje trénovanie na GPU.
 | ||
| 
 | ||
| Úlohy: 
 | ||
| 
 | ||
| - Pokračujte v trénovaní Europarl. Modelu, skúste vylepšiť výsledky.
 | ||
| - Trénovanie robte opakovateľným spôsobom - dajte na git nastavenia a trénovacie skripty, ale nie textové dáta. Len poznačte odkiaľ ste ich stiahli.
 | ||
| - Pokračujte v práci na texte - myšlienky by mali logicky nasledovať za sebou.
 | ||
| 
 | ||
| 
 | ||
| 12.11.2021
 | ||
| 
 | ||
| Práca na texte
 | ||
| 
 | ||
| Úlohy:
 | ||
| 
 | ||
| - Zlepšiť štruktúru práce
 | ||
| - Dotrénovať a vyhodnotiť model slovenčina-angličtina.
 | ||
| 
 | ||
| 28.10.
 | ||
| 
 | ||
| Stav:
 | ||
| 
 | ||
| - Vypracovaný draft článoku o transformeroch, treba vylepšiť. Článok je na ZP Wiki 
 | ||
| - Problém pri príprave trénovacích dát.
 | ||
| 
 | ||
| Úlohy:
 | ||
| 
 | ||
| - Naučte sa pripravovať textové dáta. Prejdite si knihu  https://diveintopython3.net aspoň do 4 kapitoly. Vypracujte všetky príklady z nej. 
 | ||
| - Pokračujte v práci na článku. Treba doplniť odkazy do textu. Treba zlepšiť štruktúru a logickú náväznosť viet. Vysvetlite neznáme pojmy. 
 | ||
| - Zmente článok na draft diplomovej práce. Vypracujte osnovu diplomovej práce - napíšte názvy kapitol a ich obsah. Zaraďte tam text o transformeroch ktorý ste vypracovali.
 | ||
| - Pripravte textové dáta do vhodnej podoby a spustite trénovanie. 
 | ||
| 
 | ||
| 
 | ||
| Stretnutie 30.9.
 | ||
| 
 | ||
| Stav:
 | ||
| 
 | ||
| - Len začaté štúdium článkov, ostatné úlohy zostávajú otvorené.
 | ||
| 
 | ||
| Úlohy:
 | ||
| 
 | ||
| - Pokračovať v úlohách zo 17.6.
 | ||
| - Na trénovanie použite OpenNMT.
 | ||
| - Vytvorte si repozitár dp2022 a do neho dajte skripty na natrénovanie modelov. Nedávajte tam veľké dáta, ale dajte tam skript na ich stiahnutie, napr. pomocou wget.
 | ||
|     - prepare-env.sh : ako ste vyttvorili Vaše prostredie - nainštalovali programy.
 | ||
|     - download-data.sh: ako ste získali dáta
 | ||
|     - prepare-data.sh: ako ste pripravili dáta
 | ||
|     - train1.sh: ako ste natrénovali model
 | ||
|     - evaluate1.sh: ako ste vyhodnotili model.
 | ||
| 
 | ||
| ## Diplomový projekt 1
 | ||
| 
 | ||
| Stretnutie 17.6.
 | ||
| 
 | ||
| - Splnené podmienky na zápočet.
 | ||
| - Napísaný tutoriál a úvod do NMT
 | ||
| 
 | ||
| Úlohy:
 | ||
| 
 | ||
| - Skúste zlepšiť presnosť strojového prekladu.  Modifikujte setup tak, aby sa výsledky zlepšili.
 | ||
| - Preštudujte si architektúru neurónovej siete typu Transformer. Prečítajte si blogy a urobte poznámky,
 | ||
| Prečítajte si článok s názvom "Attention is all you need.". Urobte si poznámky čo ste sa dozvedeli.
 | ||
| - Preštudujte si architektúru typu enkóder-dekóder. Urobte si poznámky čo ste sa dozvedeli a z akých zdrojov. 
 | ||
| Využívajte vyhľadávač Scholar.
 | ||
| 
 | ||
| Stretnutie 9.4.
 | ||
| 
 | ||
| Stav:
 | ||
| 
 | ||
| - Problém pri OpenNMT-py Quickstart - Nvidia driver nefunguje v prostredí WSL1. riešenie - vypnúť GPU training alebo trénovať na IDOC.
 | ||
| - Napísané poznámky o NMT na cca 3 strany, na zpwiki
 | ||
| 
 | ||
| Úlohy:
 | ||
| 
 | ||
| - Vysvetlite vlastnými slovami čo to je neurónová sieť. Ak sa niečo dozviete z článku, povedzte vlastnými slovami čo ste sa dozvedeli a z akého článku ste sa to dozvedeli.
 | ||
| - Vysvetlite vlastnými slovami ako prebieha neurónový preklad. Vysvetlite, ako sa text premení do formy ktorá je zrozumiteľná pre neurónovú sieť. Vysvetlite čo je výstupom neurónovej siete a ako sa ten výstup premení na text.
 | ||
| - Napíšte to do markdown súboru na zpwiki.
 | ||
| - Dokončite tutoriál OpenNMT-py.
 | ||
| 
 | ||
| 
 | ||
| Stretnutie 12.3.
 | ||
| 
 | ||
| Stav:
 | ||
| 
 | ||
| - poznámky k článku "Google’s neural machine translation system .
 | ||
| - Śtúdium ostatných článkov pokračuje.
 | ||
| - Problém - aktuálna verzia OpenNMT-py nefunguje s pythonom 3.5. Je potrebné využit Anacondu.
 | ||
| 
 | ||
| Úlohy:
 | ||
| 
 | ||
| - Vypracujte poznámky k článkom
 | ||
| - Pokračujte v tutoriáli OpenNMT-py cez prostredie Anaconda.
 | ||
| - Poznámky pridajte na zpWiki vo formáte Markdown
 | ||
| 
 | ||
| 
 | ||
| 
 | ||
| Stretnutie 18.2.
 | ||
| 
 | ||
| Stav:
 | ||
| - Vypracovaný článok z minulého semestra
 | ||
| 
 | ||
| Úlohy:
 | ||
| 
 | ||
| - V linuxovom prostredí (napr. idoc) si vytvorte python virtuálne prostredie:
 | ||
|     - vytvorte si adresár s projektom
 | ||
|     - mkdir ./venv
 | ||
|     - python3 -m virtualenv ./venv
 | ||
|     - source ./venv/bin/activate
 | ||
|     - Keď skončíte: deactivate
 | ||
| - Prejdite si tutoriál https://github.com/OpenNMT/OpenNMT-py
 | ||
| - Prečítjte si články z https://opennmt.net/OpenNMT-py/ref.html
 | ||
| - Vypracujte poznámky k článku "Google’s neural machine translation system: bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016". Čo ste sa z čánku dozvedeli?
 | ||
| 
 | ||
| 
 | ||
| ## Tímový projekt 2021
 | ||
| 
 | ||
| Ciel: 
 | ||
| - vytvoriť článok s témou "Štatistický preklad".
 | ||
| - vytvoriť článok, publikovateľný na konferencii
 | ||
| 
 | ||
| Virtuálne stretnutie 4.12.2020
 | ||
| 
 | ||
| Stav:
 | ||
| 
 | ||
| - Vypracovaný prehľad na tri strany, prečítané 3 články. 
 | ||
| - Prístup treba zlepšiť. 
 | ||
| 
 | ||
| Úlohy na ďalšie stretnutie:
 | ||
| 
 | ||
| - Pokračujte v písaní. Prečítajte si min. 10 článok na tému strojový preklad a ku každému napíšte čo ste sa dozvedeli.
 | ||
| - Zamerajte sa na články o neurónovom strojovom preklade. Zistite a napíšte čo je to archtektúra encoder-decoder. Napíšte aké neurónové siete sa najviac používajú.
 | ||
| - Pozrite [Ondrej Megela](/students/2018/ondrej_megela), [Martin Jancura](/students/2017/martin_jancura), [Dominik Nagy](/students/2016/dominik_nagy) 
 | ||
| - Navrhnite zadanie diplomovej práce.
 | ||
| 
 | ||
| 
 | ||
| Virtuálne stretnutie 2.10.2020
 | ||
| 
 | ||
| Prečítajte si a vypracujte poznámky:
 | ||
| 
 | ||
| - https://apps.dtic.mil/sti/pdfs/ADA466330.pdf
 | ||
| - https://arxiv.org/abs/1409.1259
 | ||
| 
 | ||
| Pozrite si aj niektoré články ktoré sú v bibliografii.
 | ||
| 
 | ||
| Zistitie, aké najnovšie voľne šíriteľné systémy na strojový preklad sú dostupné a napíšte ku nim krátku charakteristiku. Na akej metóde sú založené? V ktorom článku je táto metóda opísaná? Používajte scopus alebo scholar.
 | ||
| Zapíšte si zaujímavé bibliografické odkazy a poznačte si, čo zaujímavé sa v nich nachádza.
 | ||
| 
 | ||
| 
 | ||
| ## Bakalárska práca 2020
 | ||
| 
 | ||
| https://opac.crzp.sk/?fn=detailBiblioForm&sid=AFB64E0160B4F4E92146D39F9648
 | ||
| 
 | ||
| Názov bakalárskej práce: Metódy automatického prekladu
 | ||
| 
 | ||
| Meno vedúceho: Ing. Daniel Hládek, PhD.
 | ||
| 
 | ||
| Zadanie bakalárskej práce: 
 | ||
| 
 | ||
| 1. Pripraviť prehľad aktuálnych metód automatického prekladu. 
 | ||
| 2. Predstaviť vybranú metódu automatického prekladu. 
 | ||
| 3. Pripraviť vybraný paralelný korpus a vykonať niekoľko experimentov s automatickým prekladom. 
 | ||
| 4. Vyhodnotiť experimenty vhodnou metódou a navrhnúť možnosti na zlepšenie.
 | ||
| 
 | ||
| ## Bakalársky projekt 2019
 | ||
| 
 | ||
| Prejsť si tutoriál a tréning zo stránky 
 | ||
| 
 | ||
| -	(http://www.statmt.org/moses/?n=Moses.Overview)
 | ||
| 
 | ||
| Preštudovať
 | ||
| 
 | ||
| -	(https://github.com/rain1024/slp2-pdf)
 | ||
| -	(http://folk.uio.no/plison/pdfs/talks/meetup_SMT.pdf)
 | ||
| -	(http://www.statmt.org/moses/?n=Moses.Overview)
 | ||
| 
 | ||
| Kniha
 | ||
| 
 | ||
| -	J. JUHÁR, 2011, Rečové technológie v telekomunikačných a informačných systémoch. Košice: EQUILIBRIA, s.r.o., ISBN 978-80-  89284-75-7	 
 | ||
| 
 | ||
| Ciele projektu
 | ||
| 
 | ||
| 1. Oboznámiť sa s metódami automatického prekladu.
 | ||
| 2. Nainštalovať a spustiť program Moses.
 | ||
| 3. Oboznámiť sa s programom Moses.
 | ||
| 4. Vyskúšať model prekladu.
 | ||
| 
 | ||
| Vypracovať rešerš na tému Metódy strojového prekladu a Paralelne korpusy na 5 strán od každého
 | ||
| 
 |