du707zr/dmytro_ushatenko

Fork 0

forked from KEMT/zpwiki

dano 4d30a875ef Update 'pages/students/2016/dominik_nagy/README.md'

2022-01-11 13:03:39 +00:00

6.2 KiB

Raw Blame History

title

published

taxonomy

Dominik Nagy

true

Dominik Nagy

Rok začiatku štúdia: 2016

Diplomová práca 2022

Názov diplomovej práce: Prepis postupností pomocou neurónových sietí pre strojový preklad

Meno vedúceho: Ing. Daniel Hládek, PhD.

Zadanie diplomovej práce:

Vypracujte teoretický prehľad metód "sequence to sequence".
Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu.
Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
Na základe výsledkov experimentov navrhnite zlepšenia.

Stretnutie 11.1.2022

Urobené všetky úlohy z minulého stretnutia, okrem textu a gitu.

Úlohy:

dajte všetky skripty do repozitára dp2022
Napíšte si osnovu diplomovej práce.
Vypracujte draft (hrubý text) diplomovej práce.
V texte DP sumarizujte vykonané experimenty.
Pripravte si prezentáciu na obhajoby.

Zásobník úloh:

Pripravte článok (pre vedúceho).
Urobte experiment s architektúrou MBART. Porovnajte Vaše výsledky s výsledkami v článku MBART (Liu et al. : Multilingual Denoising Pre-training for Neural Machine Translation).

Stretnutie 17.12.2021

Stav:

rozbehané trénovanie na slovensko-anglickom (LinDat) paralelnom korpuse.
model z angličtiny do slovenčiny.
tokenizácia subword NMT.
rozbehané trénovanie na GPU, bez anaconda.

Úlohy:

Cieľ je aby Vaše experimenty boli zopakovateľné. Pridajte všetky trénovacie skripty do git repozitára. Nepridávajte dáta. Pridajte skripty alebo návody na to ako pripraviť dáta.
Zostavte tabuľku kde zapíšete parametre trénovania a dosiahnuté výsledky.
Napíšte prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí kde prečítate viacero vedeckých článkov a ku každému uvediete názov a čo ste sa z neho dozvedeli. Vyhľadávajte kľúčové slovíčka: "Survey of neural machine translation". Chceme sa dozvedieť aj o transformeroch a neurónových jazykových modeloch.
vyskúšajte trénovanie aj s inými architektúrami. Ku každému trénovaniu si poznačte skript, výsledky a dajte to na git.

Zásobník úloh:

Výskúšajte preklad v opačnom smere.
Vyskúšanie inej metódy tokenizácie (BPE, sentencepiece, wordpiece - huggingface tokenizers).

Stretnutie 6.7.2021

Stav:

Podarilo sa rozbehať setup pre trénovanie slovensko anglického prekladu na korpuse 10 viet pomocou fairseq.

Úlohy:

Pokračujte v trénovaní na servri IDOC, použite skript na príápravu prostredia ktorý som Vám dal.
Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model.
Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU.

Príprava na Diplomový projekt 2 2021

Zásobník úloh:

Využiť BERT model pri strojovom preklade zo slovenčiny

Stretnutie 17.2.2021

Stav:

Plán ukončiť v roku 2022
Vypracovaný tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model a https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html

Do ďalšieho stretnutia:

Treba zlepšiť teoretickú prípravu a písanie.
Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať.
Natrénovať model fairseq pre strojový preklad zo slovenčiny.
Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili.
Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli.

Diplomový projekt 2

Virtuálne stretnutie 25.9.

Možnosť predĺženia štúdia
Inak pokračovať v otvorených úlohách

Úlohy na ďalšie stretnutie:

pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model

Diplomový projekt 1 2020

Literatúra:

Neural Network Methods for Natural Language Processing

Úlohy na semester:

Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
Natrénovať a vyhodnotiť Fairseq Model

Virtuálne stretnutie 30.7.2020:

Dohoda na opakovaní predmetu.

Virtuálne stretnutie 14.5.2020:

Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát

Úlohy na ďalšie stretnutie:

pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model

Stretnutie 6.3.2020.

Úloha na ďalšie stretnutie:

spustiť Trénovanie Fairseq na idoc
Pozrieť dostupné jazykové zdroje
Pozrieť článok fairseq: A Fast, Extensible Toolkit for Sequence Modeling
Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md

Tímový projekt 2019

Písomná práca: Rešerš na tému "Sequnce to Sequence"

Úlohy tímového projektu:

Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
citujte min. 10 najvýznamnejších bibliografických zdrojov
Prečítajte si o konvolučných sieťach
Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction
Skúste si nainštalovať nástroj fairseq
prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md

Poznámky

Projektové stránky:

V prípade záujmu je možné pracovať na úlohe strojového prekladu.

Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora

6.2 KiB Raw Blame History

Dominik Nagy

Diplomová práca 2022

Príprava na Diplomový projekt 2 2021

Diplomový projekt 2

Diplomový projekt 1 2020

Tímový projekt 2019

Poznámky

6.2 KiB

Raw Blame History