zpwiki/pages/students/2016/dominik_nagy/README.md

4.5 KiB

title published taxonomy
Dominik Nagy true
category tag author
dp2022
bp2019
translation
nlp
Daniel Hladek

Dominik Nagy

Rok začiatku štúdia: 2016

Diplomová práca 2022

Názov diplomovej práce: Prepis postupností pomocou neurónových sietí pre strojový preklad

Meno vedúceho: Ing. Daniel Hládek, PhD.

Zadanie diplomovej práce:

  1. Vypracujte teoretický prehľad metód "sequence to sequence".
  2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu.
  3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
  4. Na základe výsledkov experimentov navrhnite zlepšenia.

Stretnutie 6.7.2021

Stav:

  • Podarilo sa rozbehať setup pre trénovanie slovensko anglického prekladu na korpuse 10 viet pomocou fairseq.

Úlohy:

  • Pokračujte v trénovaní na servri IDOC, použite sakrupt na príápravu prostredia ktorý som Vám dal.
  • Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model.
  • Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU.

Príprava na Diplomový projekt 2 2021

Zásobník úloh:

  • Využiť BERT model pri strojovom preklade zo slovenčiny

Stretnutie 17.2.2021

Stav:

Do ďalšieho stretnutia:

  • Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať.
  • Natrénovať model fairseq pre strojový preklad zo slovenčiny.
  • Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili.
  • Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli.

Diplomový projekt 2

Virtuálne stretnutie 25.9.

  • Možnosť predĺženia štúdia
  • Inak pokračovať v otvorených úlohách

Úlohy na ďalšie stretnutie:

  • pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
  • pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model

Diplomový projekt 1 2020

Literatúra:

Neural Network Methods for Natural Language Processing

Úlohy na semester:

  • Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
  • Natrénovať a vyhodnotiť Fairseq Model

Virtuálne stretnutie 30.7.2020:

Dohoda na opakovaní predmetu.

Virtuálne stretnutie 14.5.2020:

Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát

Úlohy na ďalšie stretnutie:

  • pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
  • pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model

Stretnutie 6.3.2020.

Úloha na ďalšie stretnutie:

Tímový projekt 2019

Písomná práca: Rešerš na tému "Sequnce to Sequence"

Úlohy tímového projektu:

Poznámky

Projektové stránky:

V prípade záujmu je možné pracovať na úlohe strojového prekladu.

Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora