From 21b9c8ddc8e80d4d4c9e2943668d7be9f557e7e2 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 17 Dec 2021 08:23:29 +0000 Subject: [PATCH] Update 'pages/students/2016/dominik_nagy/README.md' --- pages/students/2016/dominik_nagy/README.md | 24 +++++++++++++++++++++- 1 file changed, 23 insertions(+), 1 deletion(-) diff --git a/pages/students/2016/dominik_nagy/README.md b/pages/students/2016/dominik_nagy/README.md index 934e8630..c155871f 100644 --- a/pages/students/2016/dominik_nagy/README.md +++ b/pages/students/2016/dominik_nagy/README.md @@ -23,6 +23,28 @@ taxonomy: 3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine. 4. Na základe výsledkov experimentov navrhnite zlepšenia. + +Stretnutie 17.12.2021 + +Stav: + +- rozbehané trénovanie na slovensko-anglickom (LinDat) paralelnom korpuse. +- model z angličtiny do slovenčiny. +- tokenizácia subword NMT. +- rozbehané trénovanie na GPU, bez anaconda. + +Úlohy: + +- Cieľ je aby Vaše experimenty boli zopakovateľné. Pridajte všetky trénovacie skripty do git repozitára. Nepridávajte dáta. Pridajte skripty alebo návody na to ako pripraviť dáta. +- Zostavte tabuľku kde zapíšete parametre trénovania a dosiahnuté výsledky. +- Napíšte prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí kde prečítate viacero vedeckých článkov a ku každému uvediete názov a čo ste sa z neho dozvedeli. Vyhľadávajte kľúčové slovíčka: "Survey of neural machine translation". Chceme sa dozvedieť aj o transformeroch a neurónových jazykových modeloch. +- vyskúšajte trénovanie aj s inými architektúrami. Ku každému trénovaniu si poznačte skrupt, výsledky a dajte to na git. + +Zásobník úloh: + +- Výskúšajte preklad v opačnom smere. +- Vyskúšanie inej metódy tokenizácie (BPE, sentencepiece, wordpiece - huggingface tokenizers). + Stretnutie 6.7.2021 Stav: @@ -31,7 +53,7 @@ Stav: Úlohy: -- Pokračujte v trénovaní na servri IDOC, použite sakrupt na príápravu prostredia ktorý som Vám dal. +- Pokračujte v trénovaní na servri IDOC, použite skript na príápravu prostredia ktorý som Vám dal. - Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model. - Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU.