| .. | ||
| timovy_projekt | ||
| README.md | ||
| title | published | taxonomy | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Dominik Nagy | true | 
  | 
Dominik Nagy
Rok začiatku štúdia: 2016
Diplomová práca 2022
Názov diplomovej práce: Prepis postupností pomocou neurónových sietí pre strojový preklad
Meno vedúceho: Ing. Daniel Hládek, PhD.
Zadanie diplomovej práce:
- Vypracujte teoretický prehľad metód "sequence to sequence".
 - Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu.
 - Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
 - Na základe výsledkov experimentov navrhnite zlepšenia.
 
Stretnutie 11.1.2022
- Urobené všetky úlohy z minulého stretnutia, okrem textu a gitu.
 - Natrénované modely fairseq pre obojsmerný preklad angličtina slovenčina.
 
Úlohy:
- dajte všetky skripty do repozitára dp2022
 - Napíšte si osnovu diplomovej práce.
 - Vypracujte draft (hrubý text) diplomovej práce.
 - V texte DP sumarizujte vykonané experimenty.
 - Pripravte si prezentáciu na obhajoby.
 - Skontrolovať či sa robí tokenizácia správne pri vyhodnotení.
 
Zásobník úloh:
- Pripravte článok (pre vedúceho).
 - Urobte experiment s architektúrou MBART. Porovnajte Vaše výsledky s výsledkami v článku MBART (Liu et al. : Multilingual Denoising Pre-training for Neural Machine Translation).
 
Stretnutie 17.12.2021
Stav:
- rozbehané trénovanie na slovensko-anglickom (LinDat) paralelnom korpuse.
 - model z angličtiny do slovenčiny.
 - tokenizácia subword NMT.
 - rozbehané trénovanie na GPU, bez anaconda.
 
Úlohy:
- Cieľ je aby Vaše experimenty boli zopakovateľné. Pridajte všetky trénovacie skripty do git repozitára. Nepridávajte dáta. Pridajte skripty alebo návody na to ako pripraviť dáta.
 - Zostavte tabuľku kde zapíšete parametre trénovania a dosiahnuté výsledky.
 - Napíšte prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí kde prečítate viacero vedeckých článkov a ku každému uvediete názov a čo ste sa z neho dozvedeli. Vyhľadávajte kľúčové slovíčka: "Survey of neural machine translation". Chceme sa dozvedieť aj o transformeroch a neurónových jazykových modeloch.
 - vyskúšajte trénovanie aj s inými architektúrami. Ku každému trénovaniu si poznačte skript, výsledky a dajte to na git.
 
Zásobník úloh:
- Výskúšajte preklad v opačnom smere.
 - Vyskúšanie inej metódy tokenizácie (BPE, sentencepiece, wordpiece - huggingface tokenizers).
 
Stretnutie 6.7.2021
Stav:
- Podarilo sa rozbehať setup pre trénovanie slovensko anglického prekladu na korpuse 10 viet pomocou fairseq.
 
Úlohy:
- Pokračujte v trénovaní na servri IDOC, použite skript na príápravu prostredia ktorý som Vám dal.
 - Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model.
 - Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU.
 
Príprava na Diplomový projekt 2 2021
Zásobník úloh:
- Využiť BERT model pri strojovom preklade zo slovenčiny
 
Stretnutie 17.2.2021
Stav:
- Plán ukončiť v roku 2022
 - Vypracovaný tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model a https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html
 
Do ďalšieho stretnutia:
- Treba zlepšiť teoretickú prípravu a písanie.
 - Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať.
 - Natrénovať model fairseq pre strojový preklad zo slovenčiny.
 - Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili.
 - Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli.
 
Diplomový projekt 2
Virtuálne stretnutie 25.9.
- Možnosť predĺženia štúdia
 - Inak pokračovať v otvorených úlohách
 
Úlohy na ďalšie stretnutie:
- pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
 - pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
 
Diplomový projekt 1 2020
Literatúra:
Neural Network Methods for Natural Language Processing
Úlohy na semester:
- Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
 - Natrénovať a vyhodnotiť Fairseq Model
 
Virtuálne stretnutie 30.7.2020:
Dohoda na opakovaní predmetu.
Virtuálne stretnutie 14.5.2020:
Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát
Úlohy na ďalšie stretnutie:
- pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
 - pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
 
Stretnutie 6.3.2020.
Úloha na ďalšie stretnutie:
- spustiť Trénovanie Fairseq na idoc
 - Pozrieť dostupné jazykové zdroje
 - Pozrieť článok fairseq: A Fast, Extensible Toolkit for Sequence Modeling
 - Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md
 
Tímový projekt 2019
Písomná práca: Rešerš na tému "Sequnce to Sequence"
Úlohy tímového projektu:
- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
 - citujte min. 10 najvýznamnejších bibliografických zdrojov
 - Prečítajte si o konvolučných sieťach
 - Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction
 - Skúste si nainštalovať nástroj fairseq
 - prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md
 
Poznámky
Projektové stránky:
V prípade záujmu je možné pracovať na úlohe strojového prekladu.
Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora