forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | 
|---|---|
| Spracovanie prirodzeného jazyka a jazyk Python | true | 
Tímový projekt 2019
Daniel Hládek - odporúčaný čas konzultácie: štvrtok o 9:00
Ciele:
- oboznámiť sa so základmi spracovania prirodzeného jazyka
 - oboznámiť sa s jazykom Python
 - špecifikovať zadanie diplomovej práce
 - naučiť sa pracovať s odbornou literatúrou
 - oboznámiť kolegov s obsahom vykonanej práce
 
Študenti a témy
- Maroš Harahus "Part of Speet Tagging" pomocou Spacy
 - Lukáš Pokrývka "Paralelné trénovanie sémantických modelov prirodzeného jazyka" (word2vec, word embeddings, GloVe, fastText)
 - Ján Holp (získavanie informácií)
 - Dominik Nagy (spelling correction, fairseq)
 - Dárius Lindvai (punctuation restoration, tutorial, pytorch, LSTM tutorial)
 - Jakub Maruniak (prodigy, vytvorenie korpusu, named-entity,
 
Podmienky na zápočet
Rozsah výstupu min. 3 A4 kvalitného textu
- Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň)
 - vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov)
 - odovzdanie textu cez MOOODLE kľúč je TP2019
 - odovzdanie textu na GIT do Vašej profilovej stránky
 
Dátumy stretnutí
- 10.10 - Harahus, Holp
 - 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému)
 - 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
 - 24.10 - Pracovná cesta
 - 28.10 o 9:00, Holp, Harahus
 - 31.10 - Dekanské voľno
 - 4.11 - Maruniak
 - 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus
 - 14.11 - Lindvai, Harahus, Holp
 - 21.11 - Lindvai
 - 28.11 - Harahus, Holp
 - 5.12. - Harahus
 - 12.12. - Holp, Harahus
 - 15.1. Nagy
 
Dárius Lindvai
- Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
 - krátky program a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne ako.
 - zaujimavy blog
 
Jakub Maruniak
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
 - citujte min. 10 najvýznamnejších bibliografických zdrojov
 
Dominik Nagy:
- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
 - citujte min. 10 najvýznamnejších bibliografických zdrojov
 
15.1.2020:
- Prečítajte si o konvolučných sieťach
 - Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction
 - Skúste si nainštalovať nástroj fairseq
 - prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md
 
Návrh na zadanie DP:
- Vypracujte teoretický prehľad metód "sequence to sequence".
 - Pripravte si dátovú množinu na trénovnie modelu sequence to sequence pre úlohu opravy preklepov.
 - Vyberte minmálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
 - Na základe výsledkov experimentov navrhnite zlepšenia