2020-10-01 13:33:21 +00:00
---
title: Dominik Nagy
published: true
taxonomy:
2021-02-17 12:52:05 +00:00
category: [dp2022,bp2019]
2020-10-01 13:33:21 +00:00
tag: [translation,nlp]
author: Daniel Hladek
---
2020-01-17 13:49:32 +00:00
# Dominik Nagy
2020-01-29 05:37:04 +00:00
*Rok začiatku štúdia*: 2016
2021-02-17 12:52:05 +00:00
## Diplomová práca 2022
2021-02-09 14:47:29 +00:00
2022-01-13 07:42:02 +00:00
[GIT repozitár ](https://git.kemt.fei.tuke.sk/dn161mb/dp2022 )
2022-01-27 12:19:23 +00:00
*Názov diplomovej práce*: Neurónový strojový preklad pomocou knižnice Fairseq
2021-02-09 14:47:29 +00:00
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
*Zadanie diplomovej práce*:
2022-01-27 12:19:23 +00:00
1. Vypracujte teoretický prehľad metód neurónového strojového prekladu.
2. Podrobne opíšte vybranú metódu neurónového strojového prekladu.
3. Natrénujte viacero modelov pre strojový preklad pomocou nástroja Fairseq a vyhodnoťte ich.
2021-02-09 14:47:29 +00:00
4. Na základe výsledkov experimentov navrhnite zlepšenia.
2022-01-27 12:19:23 +00:00
2022-01-11 12:14:08 +00:00
Stretnutie 11.1.2022
2022-01-11 13:01:05 +00:00
- Urobené všetky úlohy z minulého stretnutia, okrem textu a gitu.
2022-01-11 13:05:34 +00:00
- Natrénované modely fairseq pre obojsmerný preklad angličtina slovenčina.
2022-01-11 13:01:05 +00:00
Úlohy:
2022-01-11 13:03:39 +00:00
- dajte všetky skripty do repozitára dp2022
2022-01-11 13:01:05 +00:00
- Napíšte si osnovu diplomovej práce.
- Vypracujte draft (hrubý text) diplomovej práce.
- V texte DP sumarizujte vykonané experimenty.
- Pripravte si prezentáciu na obhajoby.
2022-01-11 13:05:34 +00:00
- Skontrolovať či sa robí tokenizácia správne pri vyhodnotení.
2022-01-11 13:03:39 +00:00
Zásobník úloh:
- Pripravte článok (pre vedúceho).
- Urobte experiment s architektúrou MBART. Porovnajte Vaše výsledky s výsledkami v článku MBART (Liu et al. : Multilingual Denoising Pre-training for Neural Machine Translation).
2022-01-11 13:01:05 +00:00
2021-12-17 08:23:29 +00:00
Stretnutie 17.12.2021
Stav:
- rozbehané trénovanie na slovensko-anglickom (LinDat) paralelnom korpuse.
- model z angličtiny do slovenčiny.
- tokenizácia subword NMT.
- rozbehané trénovanie na GPU, bez anaconda.
Úlohy:
2022-01-11 12:14:08 +00:00
- [x] Cieľ je aby Vaše experimenty boli zopakovateľné. Pridajte všetky trénovacie skripty do git repozitára. Nepridávajte dáta. Pridajte skripty alebo návody na to ako pripraviť dáta.
- [x] Zostavte tabuľku kde zapíšete parametre trénovania a dosiahnuté výsledky.
2021-12-17 08:23:29 +00:00
- Napíšte prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí kde prečítate viacero vedeckých článkov a ku každému uvediete názov a čo ste sa z neho dozvedeli. Vyhľadávajte kľúčové slovíčka: "Survey of neural machine translation". Chceme sa dozvedieť aj o transformeroch a neurónových jazykových modeloch.
2022-01-11 12:14:08 +00:00
- [x] vyskúšajte trénovanie aj s inými architektúrami. Ku každému trénovaniu si poznačte skript, výsledky a dajte to na git.
2021-12-17 08:23:29 +00:00
Zásobník úloh:
2022-01-11 12:14:08 +00:00
- [x] Výskúšajte preklad v opačnom smere.
- [x] Vyskúšanie inej metódy tokenizácie (BPE, sentencepiece, wordpiece - huggingface tokenizers).
2021-12-17 08:23:29 +00:00
2021-07-06 09:23:02 +00:00
Stretnutie 6.7.2021
Stav:
- Podarilo sa rozbehať setup pre trénovanie slovensko anglického prekladu na korpuse 10 viet pomocou fairseq.
2021-07-06 09:31:24 +00:00
Úlohy:
2021-07-06 09:23:02 +00:00
2021-12-17 08:23:29 +00:00
- Pokračujte v trénovaní na servri IDOC, použite skript na príápravu prostredia ktorý som Vám dal.
2021-07-06 09:31:24 +00:00
- Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model.
- Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU.
2021-02-09 14:47:29 +00:00
2021-02-17 12:52:05 +00:00
## Príprava na Diplomový projekt 2 2021
Zásobník úloh:
- Využiť BERT model pri strojovom preklade zo slovenčiny
Stretnutie 17.2.2021
Stav:
- Plán ukončiť v roku 2022
- Vypracovaný tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model a https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html
Do ďalšieho stretnutia:
2021-07-06 09:36:19 +00:00
- Treba zlepšiť teoretickú prípravu a písanie.
2021-02-17 12:52:05 +00:00
- Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať.
- Natrénovať model fairseq pre strojový preklad zo slovenčiny.
- Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili.
- Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli.
2020-09-25 12:02:34 +00:00
## Diplomový projekt 2
2021-02-17 12:52:05 +00:00
2020-09-25 12:02:34 +00:00
Virtuálne stretnutie 25.9.
- Možnosť predĺženia štúdia
- Inak pokračovať v otvorených úlohách
Úlohy na ďalšie stretnutie:
- pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
- pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
2020-03-06 09:21:05 +00:00
## Diplomový projekt 1 2020
2020-03-06 09:30:10 +00:00
Literatúra:
[Neural Network Methods for Natural Language Processing ](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037 )
2020-03-06 09:21:05 +00:00
Úlohy na semester:
- Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
- Natrénovať a vyhodnotiť Fairseq Model
2020-06-30 12:05:06 +00:00
Virtuálne stretnutie 30.7.2020:
Dohoda na opakovaní predmetu.
2020-05-14 08:46:09 +00:00
Virtuálne stretnutie 14.5.2020:
Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát
Úlohy na ďalšie stretnutie:
- pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
- pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
2020-03-06 09:21:05 +00:00
Stretnutie 6.3.2020.
Úloha na ďalšie stretnutie:
- spustiť Trénovanie Fairseq na idoc
- Pozrieť dostupné [jazykové zdroje ](/topics/resources )
2020-03-06 09:30:10 +00:00
- Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling ](https://www.aclweb.org/anthology/N19-4009/ )
- Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md
2020-03-06 09:21:05 +00:00
2020-01-17 13:49:32 +00:00
## Tímový projekt 2019
2020-01-29 05:37:04 +00:00
*Písomná práca*: [Rešerš na tému "Sequnce to Sequence" ](./timovy_projekt/README.md )
*Úlohy tímového projektu*:
2020-02-07 09:50:13 +00:00
- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
- citujte min. 10 najvýznamnejších bibliografických zdrojov
- Prečítajte si o [konvolučných sieťach ](http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/ )
- Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction
- Skúste si nainštalovať nástroj fairseq
- prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md
2020-01-29 05:37:04 +00:00
### Poznámky
2020-01-23 10:08:04 +00:00
Projektové stránky:
2020-01-25 16:25:37 +00:00
- [Spracovanie prirodzeného jazyka ](/topics/nlp )
2020-01-25 16:27:48 +00:00
- [Python ](/topics/python )
2020-01-25 16:28:47 +00:00
- [Sequence to Sequence ](/topics/seq2seq )
2020-01-23 10:08:04 +00:00
2020-01-29 05:37:04 +00:00
V prípade záujmu je možné pracovať na úlohe strojového prekladu.
2020-01-23 10:08:04 +00:00
2020-01-29 05:37:04 +00:00
Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora
2020-01-17 13:49:32 +00:00