forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			179 lines
		
	
	
		
			6.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			179 lines
		
	
	
		
			6.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Dominik Nagy
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [dp2022,bp2019]
 | |
|     tag: [translation,nlp]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| # Dominik Nagy
 | |
| 
 | |
| *Rok začiatku štúdia*: 2016
 | |
| 
 | |
| ## Diplomová práca 2022
 | |
| 
 | |
| [GIT repozitár](https://git.kemt.fei.tuke.sk/dn161mb/dp2022)
 | |
| 
 | |
| *Názov diplomovej práce*: Neurónový strojový preklad pomocou knižnice Fairseq
 | |
| 
 | |
| *Meno vedúceho*: Ing. Daniel Hládek, PhD.
 | |
| 
 | |
| *Zadanie diplomovej práce*: 
 | |
| 
 | |
| 1. Vypracujte teoretický prehľad metód neurónového strojového prekladu.
 | |
| 2. Podrobne opíšte vybranú metódu neurónového strojového prekladu. 
 | |
| 3. Natrénujte viacero modelov pre strojový preklad pomocou nástroja Fairseq a vyhodnoťte ich. 
 | |
| 4. Na základe výsledkov experimentov navrhnite zlepšenia.
 | |
| 
 | |
| 
 | |
| Stretnutie 11.1.2022
 | |
| 
 | |
| - Urobené všetky úlohy z minulého stretnutia, okrem textu a gitu.
 | |
| - Natrénované modely fairseq pre obojsmerný preklad angličtina slovenčina.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - dajte všetky skripty do repozitára dp2022
 | |
| - Napíšte si osnovu diplomovej práce.
 | |
| - Vypracujte draft (hrubý text) diplomovej práce.
 | |
| - V texte DP sumarizujte vykonané experimenty.
 | |
| - Pripravte si prezentáciu na obhajoby.
 | |
| - Skontrolovať či sa robí tokenizácia správne pri vyhodnotení.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Pripravte článok (pre vedúceho).
 | |
| - Urobte experiment s architektúrou MBART. Porovnajte Vaše výsledky s výsledkami v článku MBART (Liu et al. : Multilingual Denoising Pre-training for Neural Machine Translation).
 | |
| 
 | |
| 
 | |
| Stretnutie 17.12.2021
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - rozbehané trénovanie na slovensko-anglickom (LinDat) paralelnom korpuse.
 | |
| - model z angličtiny do slovenčiny. 
 | |
| - tokenizácia subword NMT.
 | |
| - rozbehané trénovanie na GPU, bez anaconda.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [x] Cieľ je aby Vaše experimenty boli zopakovateľné. Pridajte všetky trénovacie skripty do git repozitára. Nepridávajte dáta. Pridajte skripty alebo návody na to ako pripraviť dáta. 
 | |
| - [x] Zostavte tabuľku kde zapíšete parametre trénovania a dosiahnuté výsledky. 
 | |
| - Napíšte prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí kde prečítate viacero vedeckých článkov a  ku každému uvediete názov a čo ste sa z neho dozvedeli. Vyhľadávajte kľúčové slovíčka: "Survey of neural machine translation". Chceme sa dozvedieť aj o transformeroch a neurónových jazykových modeloch. 
 | |
| - [x] vyskúšajte trénovanie aj s inými architektúrami. Ku každému trénovaniu si poznačte skript, výsledky a dajte to na git. 
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - [x] Výskúšajte preklad v opačnom smere. 
 | |
| - [x] Vyskúšanie inej metódy tokenizácie (BPE, sentencepiece, wordpiece - huggingface tokenizers).
 | |
| 
 | |
| Stretnutie 6.7.2021
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Podarilo sa rozbehať setup pre trénovanie slovensko anglického prekladu na korpuse 10 viet pomocou fairseq.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračujte v trénovaní na servri IDOC, použite skript na príápravu prostredia ktorý som Vám dal.
 | |
| - Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model.
 | |
| - Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU. 
 | |
| 
 | |
| ## Príprava na Diplomový projekt 2 2021
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Využiť BERT model pri strojovom preklade zo slovenčiny
 | |
| 
 | |
| Stretnutie 17.2.2021
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Plán ukončiť v roku 2022
 | |
| - Vypracovaný tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model a https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html
 | |
| 
 | |
| Do ďalšieho stretnutia:
 | |
| 
 | |
| - Treba zlepšiť teoretickú prípravu a písanie.
 | |
| - Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať. 
 | |
| - Natrénovať model fairseq pre strojový preklad zo slovenčiny.
 | |
| - Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili.
 | |
| - Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli.
 | |
| 
 | |
| ## Diplomový projekt 2
 | |
| 
 | |
| 
 | |
| Virtuálne stretnutie 25.9.
 | |
| 
 | |
| - Možnosť predĺženia štúdia
 | |
| - Inak pokračovať v otvorených úlohách
 | |
| 
 | |
| Úlohy na ďalšie stretnutie:
 | |
| 
 | |
| - pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
 | |
| - pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
 | |
| 
 | |
| 
 | |
| 
 | |
| ## Diplomový projekt 1 2020
 | |
| 
 | |
| Literatúra:
 | |
| 
 | |
| [Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037)
 | |
| 
 | |
| Úlohy na semester:
 | |
| 
 | |
| - Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
 | |
| - Natrénovať a vyhodnotiť Fairseq Model
 | |
| 
 | |
| Virtuálne stretnutie 30.7.2020:
 | |
| 
 | |
| Dohoda na opakovaní predmetu.
 | |
| 
 | |
| 
 | |
| Virtuálne stretnutie 14.5.2020:
 | |
| 
 | |
| Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát
 | |
| 
 | |
| Úlohy na ďalšie stretnutie:
 | |
| 
 | |
| - pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
 | |
| - pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
 | |
|  
 | |
| 
 | |
| Stretnutie 6.3.2020.
 | |
| 
 | |
| Úloha na ďalšie stretnutie:
 | |
| 
 | |
| - spustiť Trénovanie Fairseq na idoc
 | |
| - Pozrieť dostupné [jazykové zdroje](/topics/resources)
 | |
| - Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/)
 | |
| - Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md
 | |
| 
 | |
| 
 | |
| ## Tímový projekt 2019
 | |
| 
 | |
| *Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md)
 | |
| 
 | |
| *Úlohy tímového projektu*:
 | |
| 
 | |
| - Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
 | |
| - citujte min. 10 najvýznamnejších bibliografických zdrojov
 | |
| - Prečítajte si o [konvolučných sieťach](http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/)
 | |
| - Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction 
 | |
| - Skúste si nainštalovať nástroj fairseq
 | |
| - prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md
 | |
| 
 | |
| ### Poznámky
 | |
| 
 | |
| Projektové stránky:
 | |
| 
 | |
| - [Spracovanie prirodzeného jazyka](/topics/nlp)
 | |
| - [Python](/topics/python)
 | |
| - [Sequence to Sequence](/topics/seq2seq)
 | |
| 
 | |
| V prípade záujmu je možné pracovať na úlohe strojového prekladu.
 | |
| 
 | |
| Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora
 | |
| 
 |