zpwiki/pages/students/2016/dominik_nagy/README.md

---
title: Dominik Nagy
published: true
taxonomy:
    category: [dp2022,bp2019]
    tag: [translation,nlp]
    author: Daniel Hladek
---
# Dominik Nagy

*Rok začiatku štúdia*: 2016

## Diplomová práca 2022

[GIT repozitár](https://git.kemt.fei.tuke.sk/dn161mb/dp2022)

*Názov diplomovej práce*: Neurónový strojový preklad pomocou knižnice Fairseq

*Meno vedúceho*: Ing. Daniel Hládek, PhD.

*Zadanie diplomovej práce*: 

1. Vypracujte teoretický prehľad metód neurónového strojového prekladu.
2. Podrobne opíšte vybranú metódu neurónového strojového prekladu. 
3. Natrénujte viacero modelov pre strojový preklad pomocou nástroja Fairseq a vyhodnoťte ich. 
4. Na základe výsledkov experimentov navrhnite zlepšenia.


Stretnutie 11.1.2022

- Urobené všetky úlohy z minulého stretnutia, okrem textu a gitu.
- Natrénované modely fairseq pre obojsmerný preklad angličtina slovenčina.

Úlohy:

- dajte všetky skripty do repozitára dp2022
- Napíšte si osnovu diplomovej práce.
- Vypracujte draft (hrubý text) diplomovej práce.
- V texte DP sumarizujte vykonané experimenty.
- Pripravte si prezentáciu na obhajoby.
- Skontrolovať či sa robí tokenizácia správne pri vyhodnotení.

Zásobník úloh:

- Pripravte článok (pre vedúceho).
- Urobte experiment s architektúrou MBART. Porovnajte Vaše výsledky s výsledkami v článku MBART (Liu et al. : Multilingual Denoising Pre-training for Neural Machine Translation).


Stretnutie 17.12.2021

Stav:

- rozbehané trénovanie na slovensko-anglickom (LinDat) paralelnom korpuse.
- model z angličtiny do slovenčiny. 
- tokenizácia subword NMT.
- rozbehané trénovanie na GPU, bez anaconda.

Úlohy:

- [x] Cieľ je aby Vaše experimenty boli zopakovateľné. Pridajte všetky trénovacie skripty do git repozitára. Nepridávajte dáta. Pridajte skripty alebo návody na to ako pripraviť dáta. 
- [x] Zostavte tabuľku kde zapíšete parametre trénovania a dosiahnuté výsledky. 
- Napíšte prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí kde prečítate viacero vedeckých článkov a  ku každému uvediete názov a čo ste sa z neho dozvedeli. Vyhľadávajte kľúčové slovíčka: "Survey of neural machine translation". Chceme sa dozvedieť aj o transformeroch a neurónových jazykových modeloch. 
- [x] vyskúšajte trénovanie aj s inými architektúrami. Ku každému trénovaniu si poznačte skript, výsledky a dajte to na git. 

Zásobník úloh:

- [x] Výskúšajte preklad v opačnom smere. 
- [x] Vyskúšanie inej metódy tokenizácie (BPE, sentencepiece, wordpiece - huggingface tokenizers).

Stretnutie 6.7.2021

Stav:

- Podarilo sa rozbehať setup pre trénovanie slovensko anglického prekladu na korpuse 10 viet pomocou fairseq.

Úlohy:

- Pokračujte v trénovaní na servri IDOC, použite skript na príápravu prostredia ktorý som Vám dal.
- Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model.
- Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU. 

## Príprava na Diplomový projekt 2 2021

Zásobník úloh:

- Využiť BERT model pri strojovom preklade zo slovenčiny

Stretnutie 17.2.2021

Stav:

- Plán ukončiť v roku 2022
- Vypracovaný tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model a https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html

Do ďalšieho stretnutia:

- Treba zlepšiť teoretickú prípravu a písanie.
- Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať. 
- Natrénovať model fairseq pre strojový preklad zo slovenčiny.
- Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili.
- Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli.

## Diplomový projekt 2


Virtuálne stretnutie 25.9.

- Možnosť predĺženia štúdia
- Inak pokračovať v otvorených úlohách

Úlohy na ďalšie stretnutie:

- pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
- pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model


## Diplomový projekt 1 2020

Literatúra:

[Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037)

Úlohy na semester:

- Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
- Natrénovať a vyhodnotiť Fairseq Model

Virtuálne stretnutie 30.7.2020:

Dohoda na opakovaní predmetu.


Virtuálne stretnutie 14.5.2020:

Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát

Úlohy na ďalšie stretnutie:

- pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
- pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
 

Stretnutie 6.3.2020.

Úloha na ďalšie stretnutie:

- spustiť Trénovanie Fairseq na idoc
- Pozrieť dostupné [jazykové zdroje](/topics/resources)
- Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/)
- Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md


## Tímový projekt 2019

*Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md)

*Úlohy tímového projektu*:

- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
- citujte min. 10 najvýznamnejších bibliografických zdrojov
- Prečítajte si o [konvolučných sieťach](http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/)
- Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction 
- Skúste si nainštalovať nástroj fairseq
- prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md

### Poznámky

Projektové stránky:

- [Spracovanie prirodzeného jazyka](/topics/nlp)
- [Python](/topics/python)
- [Sequence to Sequence](/topics/seq2seq)

V prípade záujmu je možné pracovať na úlohe strojového prekladu.

Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora
zz 2020-10-01 13:33:21 +00:00			`---`
			`title: Dominik Nagy`
			`published: true`
			`taxonomy:`
Update 'pages/students/2016/dominik_nagy/README.md' 2021-02-17 12:52:05 +00:00			`category: [dp2022,bp2019]`
zz 2020-10-01 13:33:21 +00:00			`tag: [translation,nlp]`
			`author: Daniel Hladek`
			`---`
Add 'pages/students/2016/dominik_nagy/README.md' 2020-01-17 13:49:32 +00:00			`# Dominik Nagy`
Update 'pages/students/2016/dominik_nagy/README.md' update podla vzorneho studenta 2020-01-29 05:37:04 +00:00
			`Rok začiatku štúdia: 2016`

Update 'pages/students/2016/dominik_nagy/README.md' 2021-02-17 12:52:05 +00:00			`## Diplomová práca 2022`
Update 'pages/students/2016/dominik_nagy/README.md' 2021-02-09 14:47:29 +00:00
Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-13 07:42:02 +00:00			`[GIT repozitár](https://git.kemt.fei.tuke.sk/dn161mb/dp2022)`

Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-27 12:19:23 +00:00			`Názov diplomovej práce: Neurónový strojový preklad pomocou knižnice Fairseq`
Update 'pages/students/2016/dominik_nagy/README.md' 2021-02-09 14:47:29 +00:00
			`Meno vedúceho: Ing. Daniel Hládek, PhD.`

			`Zadanie diplomovej práce:`

Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-27 12:19:23 +00:00			`1. Vypracujte teoretický prehľad metód neurónového strojového prekladu.`
			`2. Podrobne opíšte vybranú metódu neurónového strojového prekladu.`
			`3. Natrénujte viacero modelov pre strojový preklad pomocou nástroja Fairseq a vyhodnoťte ich.`
Update 'pages/students/2016/dominik_nagy/README.md' 2021-02-09 14:47:29 +00:00			`4. Na základe výsledkov experimentov navrhnite zlepšenia.`

Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-27 12:19:23 +00:00
Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 12:14:08 +00:00			`Stretnutie 11.1.2022`

Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 13:01:05 +00:00			`- Urobené všetky úlohy z minulého stretnutia, okrem textu a gitu.`
Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 13:05:34 +00:00			`- Natrénované modely fairseq pre obojsmerný preklad angličtina slovenčina.`
Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 13:01:05 +00:00
			`Úlohy:`

Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 13:03:39 +00:00			`- dajte všetky skripty do repozitára dp2022`
Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 13:01:05 +00:00			`- Napíšte si osnovu diplomovej práce.`
			`- Vypracujte draft (hrubý text) diplomovej práce.`
			`- V texte DP sumarizujte vykonané experimenty.`
			`- Pripravte si prezentáciu na obhajoby.`
Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 13:05:34 +00:00			`- Skontrolovať či sa robí tokenizácia správne pri vyhodnotení.`
Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 13:03:39 +00:00
			`Zásobník úloh:`

			`- Pripravte článok (pre vedúceho).`
			`- Urobte experiment s architektúrou MBART. Porovnajte Vaše výsledky s výsledkami v článku MBART (Liu et al. : Multilingual Denoising Pre-training for Neural Machine Translation).`
Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 13:01:05 +00:00
Update 'pages/students/2016/dominik_nagy/README.md' 2021-12-17 08:23:29 +00:00
			`Stretnutie 17.12.2021`

			`Stav:`

			`- rozbehané trénovanie na slovensko-anglickom (LinDat) paralelnom korpuse.`
			`- model z angličtiny do slovenčiny.`
			`- tokenizácia subword NMT.`
			`- rozbehané trénovanie na GPU, bez anaconda.`

			`Úlohy:`

Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 12:14:08 +00:00			`- [x] Cieľ je aby Vaše experimenty boli zopakovateľné. Pridajte všetky trénovacie skripty do git repozitára. Nepridávajte dáta. Pridajte skripty alebo návody na to ako pripraviť dáta.`
			`- [x] Zostavte tabuľku kde zapíšete parametre trénovania a dosiahnuté výsledky.`
Update 'pages/students/2016/dominik_nagy/README.md' 2021-12-17 08:23:29 +00:00			`- Napíšte prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí kde prečítate viacero vedeckých článkov a ku každému uvediete názov a čo ste sa z neho dozvedeli. Vyhľadávajte kľúčové slovíčka: "Survey of neural machine translation". Chceme sa dozvedieť aj o transformeroch a neurónových jazykových modeloch.`
Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 12:14:08 +00:00			`- [x] vyskúšajte trénovanie aj s inými architektúrami. Ku každému trénovaniu si poznačte skript, výsledky a dajte to na git.`
Update 'pages/students/2016/dominik_nagy/README.md' 2021-12-17 08:23:29 +00:00
			`Zásobník úloh:`

Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-11 12:14:08 +00:00			`- [x] Výskúšajte preklad v opačnom smere.`
			`- [x] Vyskúšanie inej metódy tokenizácie (BPE, sentencepiece, wordpiece - huggingface tokenizers).`
Update 'pages/students/2016/dominik_nagy/README.md' 2021-12-17 08:23:29 +00:00
Update 'pages/students/2016/dominik_nagy/README.md' 2021-07-06 09:23:02 +00:00			`Stretnutie 6.7.2021`

			`Stav:`

			`- Podarilo sa rozbehať setup pre trénovanie slovensko anglického prekladu na korpuse 10 viet pomocou fairseq.`

Update 'pages/students/2016/dominik_nagy/README.md' 2021-07-06 09:31:24 +00:00			`Úlohy:`
Update 'pages/students/2016/dominik_nagy/README.md' 2021-07-06 09:23:02 +00:00
Update 'pages/students/2016/dominik_nagy/README.md' 2021-12-17 08:23:29 +00:00			`- Pokračujte v trénovaní na servri IDOC, použite skript na príápravu prostredia ktorý som Vám dal.`
Update 'pages/students/2016/dominik_nagy/README.md' 2021-07-06 09:31:24 +00:00			`- Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model.`
			`- Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU.`
Update 'pages/students/2016/dominik_nagy/README.md' 2021-02-09 14:47:29 +00:00
Update 'pages/students/2016/dominik_nagy/README.md' 2021-02-17 12:52:05 +00:00			`## Príprava na Diplomový projekt 2 2021`

			`Zásobník úloh:`

			`- Využiť BERT model pri strojovom preklade zo slovenčiny`

			`Stretnutie 17.2.2021`

			`Stav:`

			`- Plán ukončiť v roku 2022`
			`- Vypracovaný tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model a https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html`

			`Do ďalšieho stretnutia:`

Update 'pages/students/2016/dominik_nagy/README.md' 2021-07-06 09:36:19 +00:00			`- Treba zlepšiť teoretickú prípravu a písanie.`
Update 'pages/students/2016/dominik_nagy/README.md' 2021-02-17 12:52:05 +00:00			`- Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať.`
			`- Natrénovať model fairseq pre strojový preklad zo slovenčiny.`
			`- Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili.`
			`- Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli.`

Update 'pages/students/2016/dominik_nagy/README.md' 2020-09-25 12:02:34 +00:00			`## Diplomový projekt 2`

Update 'pages/students/2016/dominik_nagy/README.md' 2021-02-17 12:52:05 +00:00
Update 'pages/students/2016/dominik_nagy/README.md' 2020-09-25 12:02:34 +00:00			`Virtuálne stretnutie 25.9.`

			`- Možnosť predĺženia štúdia`
			`- Inak pokračovať v otvorených úlohách`

			`Úlohy na ďalšie stretnutie:`

			`- pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model`
			`- pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model`



Update 'pages/students/2016/dominik_nagy/README.md' 2020-03-06 09:21:05 +00:00			`## Diplomový projekt 1 2020`

Update 'pages/students/2016/dominik_nagy/README.md' 2020-03-06 09:30:10 +00:00			`Literatúra:`

			`[Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037)`

Update 'pages/students/2016/dominik_nagy/README.md' 2020-03-06 09:21:05 +00:00			`Úlohy na semester:`

			`- Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny`
			`- Natrénovať a vyhodnotiť Fairseq Model`

Update 'pages/students/2016/dominik_nagy/README.md' 2020-06-30 12:05:06 +00:00			`Virtuálne stretnutie 30.7.2020:`

			`Dohoda na opakovaní predmetu.`


Update 'pages/students/2016/dominik_nagy/README.md' 2020-05-14 08:46:09 +00:00			`Virtuálne stretnutie 14.5.2020:`

			`Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát`

			`Úlohy na ďalšie stretnutie:`

			`- pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model`
			`- pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model`

Update 'pages/students/2016/dominik_nagy/README.md' 2020-03-06 09:21:05 +00:00
			`Stretnutie 6.3.2020.`

			`Úloha na ďalšie stretnutie:`

			`- spustiť Trénovanie Fairseq na idoc`
			`- Pozrieť dostupné [jazykové zdroje](/topics/resources)`
Update 'pages/students/2016/dominik_nagy/README.md' 2020-03-06 09:30:10 +00:00			`- Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/)`
			`- Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md`
Update 'pages/students/2016/dominik_nagy/README.md' 2020-03-06 09:21:05 +00:00

Add 'pages/students/2016/dominik_nagy/README.md' 2020-01-17 13:49:32 +00:00			`## Tímový projekt 2019`

Update 'pages/students/2016/dominik_nagy/README.md' update podla vzorneho studenta 2020-01-29 05:37:04 +00:00			`Písomná práca: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md)`

			`Úlohy tímového projektu:`

Update 'pages/students/2016/dominik_nagy/README.md' 2020-02-07 09:50:13 +00:00			`- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)`
			`- citujte min. 10 najvýznamnejších bibliografických zdrojov`
			`- Prečítajte si o [konvolučných sieťach](http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/)`
			`- Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction`
			`- Skúste si nainštalovať nástroj fairseq`
			`- prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md`

Update 'pages/students/2016/dominik_nagy/README.md' update podla vzorneho studenta 2020-01-29 05:37:04 +00:00			`### Poznámky`

Update 'pages/students/2016/dominik_nagy/README.md' 2020-01-23 10:08:04 +00:00			`Projektové stránky:`

move nlp 2020-01-25 16:25:37 +00:00			`- [Spracovanie prirodzeného jazyka](/topics/nlp)`
move python 2020-01-25 16:27:48 +00:00			`- [Python](/topics/python)`
moved seq2seq 2020-01-25 16:28:47 +00:00			`- [Sequence to Sequence](/topics/seq2seq)`
Update 'pages/students/2016/dominik_nagy/README.md' 2020-01-23 10:08:04 +00:00
Update 'pages/students/2016/dominik_nagy/README.md' update podla vzorneho studenta 2020-01-29 05:37:04 +00:00			`V prípade záujmu je možné pracovať na úlohe strojového prekladu.`
Update 'pages/students/2016/dominik_nagy/README.md' 2020-01-23 10:08:04 +00:00
Update 'pages/students/2016/dominik_nagy/README.md' update podla vzorneho studenta 2020-01-29 05:37:04 +00:00			`Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora`
Add 'pages/students/2016/dominik_nagy/README.md' 2020-01-17 13:49:32 +00:00