Update 'pages/students/2016/dominik_nagy/README.md'

This commit is contained in:
dano 2021-12-17 08:23:29 +00:00
parent 9d961f88ef
commit 21b9c8ddc8

View File

@ -23,6 +23,28 @@ taxonomy:
3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
4. Na základe výsledkov experimentov navrhnite zlepšenia.
Stretnutie 17.12.2021
Stav:
- rozbehané trénovanie na slovensko-anglickom (LinDat) paralelnom korpuse.
- model z angličtiny do slovenčiny.
- tokenizácia subword NMT.
- rozbehané trénovanie na GPU, bez anaconda.
Úlohy:
- Cieľ je aby Vaše experimenty boli zopakovateľné. Pridajte všetky trénovacie skripty do git repozitára. Nepridávajte dáta. Pridajte skripty alebo návody na to ako pripraviť dáta.
- Zostavte tabuľku kde zapíšete parametre trénovania a dosiahnuté výsledky.
- Napíšte prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí kde prečítate viacero vedeckých článkov a ku každému uvediete názov a čo ste sa z neho dozvedeli. Vyhľadávajte kľúčové slovíčka: "Survey of neural machine translation". Chceme sa dozvedieť aj o transformeroch a neurónových jazykových modeloch.
- vyskúšajte trénovanie aj s inými architektúrami. Ku každému trénovaniu si poznačte skrupt, výsledky a dajte to na git.
Zásobník úloh:
- Výskúšajte preklad v opačnom smere.
- Vyskúšanie inej metódy tokenizácie (BPE, sentencepiece, wordpiece - huggingface tokenizers).
Stretnutie 6.7.2021
Stav:
@ -31,7 +53,7 @@ Stav:
Úlohy:
- Pokračujte v trénovaní na servri IDOC, použite sakrupt na príápravu prostredia ktorý som Vám dal.
- Pokračujte v trénovaní na servri IDOC, použite skript na príápravu prostredia ktorý som Vám dal.
- Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model.
- Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU.