--- title: Spracovanie prirodzeného jazyka a jazyk Python published: true --- # Tímový projekt 2019 [Daniel Hládek](../) - odporúčaný čas konzultácie: štvrtok o 9:00 Ciele: - [Spracovanie prirodzeného jazyka](../../topics/nlp), [Programovanie v jazyku Python](../../topics/python) - špecifikovať zadanie diplomovej práce - naučiť sa pracovať s [odbornou literatúrou](../zp) - oboznámiť kolegov s obsahom vykonanej práce # Študenti a témy - [Maroš Harahus](../../../../students/2016/maros_harahus) "Part of Speet Tagging" pomocou Spacy - [Lukáš Pokrývka](../../../../students/2016/lukas_pokryvka) "Paralelné trénovanie sémantických modelov prirodzeného jazyka" (word2vec, word embeddings, GloVe, fastText) - [Ján Holp](../../../../students/2016/jan_holp) (získavanie informácií) - [Dárius Lindvai](../../../../students/2016/darius_lindvai) (punctuation restoration, [tutorial](https://medium.com/@praneethbedapudi/deepcorrection2-automatic-punctuation-restoration-ac4a837d92d9), pytorch, LSTM tutorial) - [Jakub Maruniak](../../../../students/2016/jakub_maruniak) (prodigy, vytvorenie korpusu, [named-entity](../prodigy), - [Dominik Nagy](../../../../students/2016/dominik_nagy) (spelling correction, fairseq) ## Podmienky na zápočet Rozsah výstupu min. 3 A4 kvalitného textu - Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň) - vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov) - odovzdanie textu cez [MOOODLE](https://moodle.tuke.sk/moodle35/course/view.php?id=874) kľúč je TP2019 - odovzdanie textu na GIT do Vašej profilovej stránky # Dátumy stretnutí - 10.10 - Harahus, Holp - 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému) - 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda) - 24.10 - Pracovná cesta - 28.10 o 9:00, Holp, Harahus - 31.10 - Dekanské voľno - 4.11 - Maruniak - 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus - 14.11 - Lindvai, Harahus, Holp - 21.11 - Lindvai - 28.11 - Harahus, Holp - 5.12. - Harahus - 12.12. - Holp, Harahus - 15.1. Nagy Dárius Lindvai - Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration" - krátky program a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne [ako](https://pytorch.org/tutorials/beginner/nlp/sequence_models_tutorial.html). - [zaujimavy blog](http://jalammar.github.io/illustrated-transformer/) Jakub Maruniak - Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing" - citujte min. 10 najvýznamnejších bibliografických zdrojov Dominik Nagy: - Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention) - citujte min. 10 najvýznamnejších bibliografických zdrojov 15.1.2020: - Prečítajte si o [konvolučných sieťach](http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/) - Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction - Skúste si nainštalovať nástroj fairseq - prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md Návrh na zadanie DP: - Vypracujte teoretický prehľad metód "sequence to sequence". - Pripravte si dátovú množinu na trénovnie modelu sequence to sequence pre úlohu opravy preklepov. - Vyberte minmálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine. - Na základe výsledkov experimentov navrhnite zlepšenia