dmytro_ushatenko/pages/students/2016/patrik_pavlisin/README.md

122 lines
4.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: Patrik Pavlišin
published: true
taxonomy:
category: [dp2022,bp2020,tp2021]
tag: [nmt,translation,nlp]
author: Daniel Hladek
---
# Patrik Pavlišin
Predbežný názov diplomovej práce:
Neurónový strojový preklad
Návrh na nástroje pre strojový preklad:
- OpenNMT-py
- Fairseq
## Návrh na zadanie diplomovej práce
1. Pripraviť prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí.
2. Vybrať konkrétnu metódu strojového prekladu pomocou neurónových sietí a podrobne ju opísať.
3. Pripraviť vybraný paralelný korpus do vhodnej podoby a pomocou vybranej metódy natrénovať model pre strojový preklad.
4. Vyhodnotiť experimenty a navrhnúť možnosti na zlepšenie.
## Diplomový projekt 1
Stretnutie 18.2.
Stav:
- Vypracovaný článok z minulého semestra
Úlohy:
- V linuxovom prostredí (napr. idoc) si vytvorte python virtuálne prostredie:
- vytvorte si adresár s projektom
- mkdir ./venv
- python3 -m virtualenv ./venv
- source ./venv/bin/activate
- Keď skončíte: deactivate
- Prejdite si tutoriál https://github.com/OpenNMT/OpenNMT-py
- Prečítjte si články z https://opennmt.net/OpenNMT-py/ref.html
- Vypracujte poznámky k článku "Googles neural machine translation system: bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016". Čo ste sa z čánku dozvedeli?
## Tímový projekt 2021
Ciel:
- vytvoriť článok s témou "Štatistický preklad".
- vytvoriť článok, publikovateľný na konferencii
Virtuálne stretnutie 4.12.2020
Stav:
- Vypracovaný prehľad na tri strany, prečítané 3 články.
- Prístup treba zlepšiť.
Úlohy na ďalšie stretnutie:
- Pokračujte v písaní. Prečítajte si min. 10 článok na tému strojový preklad a ku každému napíšte čo ste sa dozvedeli.
- Zamerajte sa na články o neurónovom strojovom preklade. Zistite a napíšte čo je to archtektúra encoder-decoder. Napíšte aké neurónové siete sa najviac používajú.
- Pozrite [Ondrej Megela](/students/2018/ondrej_megela), [Martin Jancura](/students/2017/martin_jancura), [Dominik Nagy](/students/2016/dominik_nagy)
- Navrhnite zadanie diplomovej práce.
Virtuálne stretnutie 2.10.2020
Prečítajte si a vypracujte poznámky:
- https://apps.dtic.mil/sti/pdfs/ADA466330.pdf
- https://arxiv.org/abs/1409.1259
Pozrite si aj niektoré články ktoré sú v bibliografii.
Zistitie, aké najnovšie voľne šíriteľné systémy na strojový preklad sú dostupné a napíšte ku nim krátku charakteristiku. Na akej metóde sú založené? V ktorom článku je táto metóda opísaná? Používajte scopus alebo scholar.
Zapíšte si zaujímavé bibliografické odkazy a poznačte si, čo zaujímavé sa v nich nachádza.
## Bakalárska práca 2020
https://opac.crzp.sk/?fn=detailBiblioForm&sid=AFB64E0160B4F4E92146D39F9648
Názov bakalárskej práce: Metódy automatického prekladu
Meno vedúceho: Ing. Daniel Hládek, PhD.
Zadanie bakalárskej práce:
1. Pripraviť prehľad aktuálnych metód automatického prekladu.
2. Predstaviť vybranú metódu automatického prekladu.
3. Pripraviť vybraný paralelný korpus a vykonať niekoľko experimentov s automatickým prekladom.
4. Vyhodnotiť experimenty vhodnou metódou a navrhnúť možnosti na zlepšenie.
## Bakalársky projekt 2019
Prejsť si tutoriál a tréning zo stránky
- (http://www.statmt.org/moses/?n=Moses.Overview)
Preštudovať
- (https://github.com/rain1024/slp2-pdf)
- (http://folk.uio.no/plison/pdfs/talks/meetup_SMT.pdf)
- (http://www.statmt.org/moses/?n=Moses.Overview)
Kniha
- J. JUHÁR, 2011, Rečové technológie v telekomunikačných a informačných systémoch. Košice: EQUILIBRIA, s.r.o., ISBN 978-80- 89284-75-7
Ciele projektu
1. Oboznámiť sa s metódami automatického prekladu.
2. Nainštalovať a spustiť program Moses.
3. Oboznámiť sa s programom Moses.
4. Vyskúšať model prekladu.
Vypracovať rešerš na tému Metódy strojového prekladu a Paralelne korpusy na 5 strán od každého