zpwiki/pages/students/2016/dominik_nagy/README.md

---
title: Dominik Nagy
published: true
taxonomy:
    category: [dp2022,bp2019]
    tag: [translation,nlp]
    author: Daniel Hladek
---
# Dominik Nagy

*Rok začiatku štúdia*: 2016

## Diplomová práca 2022

*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre strojový preklad

*Meno vedúceho*: Ing. Daniel Hládek, PhD.

*Zadanie diplomovej práce*:

1. Vypracujte teoretický prehľad metód "sequence to sequence".
2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu.
3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
4. Na základe výsledkov experimentov navrhnite zlepšenia.

Stretnutie 6.7.2021

Stav:

- Podarilo sa rozbehať setup pre trénovanie slovensko anglického prekladu na korpuse 10 viet pomocou fairseq.

Úlohy:

- Pokračujte v trénovaní na servri IDOC, použite sakrupt na príápravu prostredia ktorý som Vám dal.
- Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model.
- Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU.

## Príprava na Diplomový projekt 2 2021

Zásobník úloh:

- Využiť BERT model pri strojovom preklade zo slovenčiny

Stretnutie 17.2.2021

Stav:

- Plán ukončiť v roku 2022
- Vypracovaný tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model a https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html

Do ďalšieho stretnutia:

- Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať.
- Natrénovať model fairseq pre strojový preklad zo slovenčiny.
- Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili.
- Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli.

## Diplomový projekt 2


Virtuálne stretnutie 25.9.

- Možnosť predĺženia štúdia
- Inak pokračovať v otvorených úlohách

Úlohy na ďalšie stretnutie:

- pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
- pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model


## Diplomový projekt 1 2020

Literatúra:

[Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037)

Úlohy na semester:

- Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
- Natrénovať a vyhodnotiť Fairseq Model

Virtuálne stretnutie 30.7.2020:

Dohoda na opakovaní predmetu.


Virtuálne stretnutie 14.5.2020:

Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát

Úlohy na ďalšie stretnutie:

- pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
- pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model


Stretnutie 6.3.2020.

Úloha na ďalšie stretnutie:

- spustiť Trénovanie Fairseq na idoc
- Pozrieť dostupné [jazykové zdroje](/topics/resources)
- Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/)
- Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md


## Tímový projekt 2019

*Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md)

*Úlohy tímového projektu*:

- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
- citujte min. 10 najvýznamnejších bibliografických zdrojov
- Prečítajte si o [konvolučných sieťach](http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/)
- Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction
- Skúste si nainštalovať nástroj fairseq
- prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md

### Poznámky

Projektové stránky:

- [Spracovanie prirodzeného jazyka](/topics/nlp)
- [Python](/topics/python)
- [Sequence to Sequence](/topics/seq2seq)

V prípade záujmu je možné pracovať na úlohe strojového prekladu.

Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora