zpwiki/pages/students/2016/dominik_nagy
2022-01-13 07:42:02 +00:00
..
timovy_projekt zz 2020-10-02 16:58:47 +02:00
README.md Update 'pages/students/2016/dominik_nagy/README.md' 2022-01-13 07:42:02 +00:00

title published taxonomy
Dominik Nagy true
category tag author
dp2022
bp2019
translation
nlp
Daniel Hladek

Dominik Nagy

Rok začiatku štúdia: 2016

Diplomová práca 2022

GIT repozitár

Názov diplomovej práce: Prepis postupností pomocou neurónových sietí pre strojový preklad

Meno vedúceho: Ing. Daniel Hládek, PhD.

Zadanie diplomovej práce:

  1. Vypracujte teoretický prehľad metód "sequence to sequence".
  2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu.
  3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
  4. Na základe výsledkov experimentov navrhnite zlepšenia.

Stretnutie 11.1.2022

  • Urobené všetky úlohy z minulého stretnutia, okrem textu a gitu.
  • Natrénované modely fairseq pre obojsmerný preklad angličtina slovenčina.

Úlohy:

  • dajte všetky skripty do repozitára dp2022
  • Napíšte si osnovu diplomovej práce.
  • Vypracujte draft (hrubý text) diplomovej práce.
  • V texte DP sumarizujte vykonané experimenty.
  • Pripravte si prezentáciu na obhajoby.
  • Skontrolovať či sa robí tokenizácia správne pri vyhodnotení.

Zásobník úloh:

  • Pripravte článok (pre vedúceho).
  • Urobte experiment s architektúrou MBART. Porovnajte Vaše výsledky s výsledkami v článku MBART (Liu et al. : Multilingual Denoising Pre-training for Neural Machine Translation).

Stretnutie 17.12.2021

Stav:

  • rozbehané trénovanie na slovensko-anglickom (LinDat) paralelnom korpuse.
  • model z angličtiny do slovenčiny.
  • tokenizácia subword NMT.
  • rozbehané trénovanie na GPU, bez anaconda.

Úlohy:

  • Cieľ je aby Vaše experimenty boli zopakovateľné. Pridajte všetky trénovacie skripty do git repozitára. Nepridávajte dáta. Pridajte skripty alebo návody na to ako pripraviť dáta.
  • Zostavte tabuľku kde zapíšete parametre trénovania a dosiahnuté výsledky.
  • Napíšte prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí kde prečítate viacero vedeckých článkov a ku každému uvediete názov a čo ste sa z neho dozvedeli. Vyhľadávajte kľúčové slovíčka: "Survey of neural machine translation". Chceme sa dozvedieť aj o transformeroch a neurónových jazykových modeloch.
  • vyskúšajte trénovanie aj s inými architektúrami. Ku každému trénovaniu si poznačte skript, výsledky a dajte to na git.

Zásobník úloh:

  • Výskúšajte preklad v opačnom smere.
  • Vyskúšanie inej metódy tokenizácie (BPE, sentencepiece, wordpiece - huggingface tokenizers).

Stretnutie 6.7.2021

Stav:

  • Podarilo sa rozbehať setup pre trénovanie slovensko anglického prekladu na korpuse 10 viet pomocou fairseq.

Úlohy:

  • Pokračujte v trénovaní na servri IDOC, použite skript na príápravu prostredia ktorý som Vám dal.
  • Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model.
  • Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU.

Príprava na Diplomový projekt 2 2021

Zásobník úloh:

  • Využiť BERT model pri strojovom preklade zo slovenčiny

Stretnutie 17.2.2021

Stav:

Do ďalšieho stretnutia:

  • Treba zlepšiť teoretickú prípravu a písanie.
  • Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať.
  • Natrénovať model fairseq pre strojový preklad zo slovenčiny.
  • Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili.
  • Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli.

Diplomový projekt 2

Virtuálne stretnutie 25.9.

  • Možnosť predĺženia štúdia
  • Inak pokračovať v otvorených úlohách

Úlohy na ďalšie stretnutie:

  • pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
  • pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model

Diplomový projekt 1 2020

Literatúra:

Neural Network Methods for Natural Language Processing

Úlohy na semester:

  • Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
  • Natrénovať a vyhodnotiť Fairseq Model

Virtuálne stretnutie 30.7.2020:

Dohoda na opakovaní predmetu.

Virtuálne stretnutie 14.5.2020:

Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát

Úlohy na ďalšie stretnutie:

  • pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
  • pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model

Stretnutie 6.3.2020.

Úloha na ďalšie stretnutie:

Tímový projekt 2019

Písomná práca: Rešerš na tému "Sequnce to Sequence"

Úlohy tímového projektu:

Poznámky

Projektové stránky:

V prípade záujmu je možné pracovať na úlohe strojového prekladu.

Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora