History

Daniel Hládek 249dfe8af8 Update 'pages/students/2016/dominik_nagy/README.md'		2021-02-17 12:52:05 +00:00
..
timovy_projekt	zz	2020-10-02 16:58:47 +02:00
README.md	Update 'pages/students/2016/dominik_nagy/README.md'	2021-02-17 12:52:05 +00:00

README.md

title

published

taxonomy

Dominik Nagy

true

Dominik Nagy

Rok začiatku štúdia: 2016

Diplomová práca 2022

Názov diplomovej práce: Prepis postupností pomocou neurónových sietí pre strojový preklad

Meno vedúceho: Ing. Daniel Hládek, PhD.

Zadanie diplomovej práce:

Vypracujte teoretický prehľad metód "sequence to sequence".
Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu.
Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
Na základe výsledkov experimentov navrhnite zlepšenia.

Príprava na Diplomový projekt 2 2021

Zásobník úloh:

Využiť BERT model pri strojovom preklade zo slovenčiny

Stretnutie 17.2.2021

Stav:

Plán ukončiť v roku 2022
Vypracovaný tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model a https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html

Do ďalšieho stretnutia:

Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať.
Natrénovať model fairseq pre strojový preklad zo slovenčiny.
Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili.
Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli.

Diplomový projekt 2

Virtuálne stretnutie 25.9.

Možnosť predĺženia štúdia
Inak pokračovať v otvorených úlohách

Úlohy na ďalšie stretnutie:

pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model

Diplomový projekt 1 2020

Literatúra:

Neural Network Methods for Natural Language Processing

Úlohy na semester:

Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
Natrénovať a vyhodnotiť Fairseq Model

Virtuálne stretnutie 30.7.2020:

Dohoda na opakovaní predmetu.

Virtuálne stretnutie 14.5.2020:

Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát

Úlohy na ďalšie stretnutie:

pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model

Stretnutie 6.3.2020.

Úloha na ďalšie stretnutie:

spustiť Trénovanie Fairseq na idoc
Pozrieť dostupné jazykové zdroje
Pozrieť článok fairseq: A Fast, Extensible Toolkit for Sequence Modeling
Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md

Tímový projekt 2019

Písomná práca: Rešerš na tému "Sequnce to Sequence"

Úlohy tímového projektu:

Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
citujte min. 10 najvýznamnejších bibliografických zdrojov
Prečítajte si o konvolučných sieťach
Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction
Skúste si nainštalovať nástroj fairseq
prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md

Poznámky

Projektové stránky:

V prípade záujmu je možné pracovať na úlohe strojového prekladu.

Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora