--- title: Spracovanie prirodzeného jazyka a jazyk Python published: true --- # Tímový projekt 2019 [Daniel Hládek](../) - odporúčaný čas konzultácie: štvrtok o 9:00 # Tím 2019 - [Vzorový študent](./../../../students/2016/ab123cd) - [Maroš Harahus](./../../../students/2016/mh496vd) (part-of-speech tagging) - Lukáš Pokrývka (flask demo, named entity) - Dominik Nagy (spelling correction, fairseq) - Ján Holp (získavanie informácií) - Dárius Lindvai (punctuation restoration, [tutorial](https://medium.com/@praneethbedapudi/deepcorrection2-automatic-punctuation-restoration-ac4a837d92d9), pytorch, LSTM tutorial) - Jakub Maruniak (prodigy, vytvorenie korpusu, [named-entity](../prodigy), Ciele: - oboznámiť sa so základmi spracovania prirodzeného jazyka - oboznámiť sa s jazykom Python - špecifikovať zadanie diplomovej práce - naučiť sa pracovať s [odbornou literatúrou](../zp) - oboznámiť kolegov s obsahom vykonanej práce Výstupy: Rozsah výstupu min. 3 A4 kvalitného textu - Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň) - vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov) - odovzdanie cez [MOOODLE](https://moodle.tuke.sk/moodle35/course/view.php?id=874) kľúč je TP2019 Odporúčané nástroje: - Prostredie [Anaconda](https://www.anaconda.com/distribution/) - Chatbot [RASA](https://rasa.com/) - Knižnica [Spacy](https://spacy.io/) - Anotácie [Prodigy](https://prodi.gy/) - Získavanie informácií [Elasticsearch](https://www.elastic.co/products/elasticsearch) - seq2seq Neurónové siete [Fairseq](https://github.com/pytorch/fairseq) - webové aplikácie a REST [Flask](https://www.fullstackpython.com/flask.html) Odporúčané témy: - [identifikácia pomenovaných entít](./named-entity) (named entity recognition) - [dialógové systémy](./chatbot) (chatbot) - strojový preklad (machine translation) - oprava preklepov (spelling error correction, diacritics restoration) - získavanie informácií (vyhľadávanie v texte) - identifikácia viacslovných výrazov (chunking) - anotácia textových dát Informácie a literatúra: - [Spacy Tutoriál](https://nlpforhackers.io/complete-guide-to-spacy/) - [Dive into Python](https://diveintopython3.problemsolving.io/) [(česky)](http://diveintopython3.py.cz/index.html) - [Natural Language Processing in Action](https://www.manning.com/books/natural-language-processing-in-action) [(git)](https://github.com/totalgood/nlpia) - [Python Data Science Handbook](https://github.com/jakevdp/PythonDataScienceHandbook) - [Speech and Language Processing 2rd edition](https://github.com/rain1024/slp2-pdf) - [Speech and Language Processing 3rd edition](https://web.stanford.edu/~jurafsky/slp3/) Postup: - Nainštaluj si Anacondu - Prečítaj si materiály - Vyber si zaujímavú úlohu a nástroj - Vyskúšaj nástroj - Napíš správu o riešení úlohy Dátumy stretnutí: - 10.10 - Harahus, Holp - 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému) - 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda) - 24.10 - Pracovná cesta - 28.10 o 9:00, Holp, Harahus - 31.10 - Dekanské voľno - 4.11 - Maruniak - 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus - 14.11 - Lindvai, Harahus, Holp - 21.11 - Lindvai - 28.11 - Harahus, Holp - 5.12. - Harahus Dárius Lindvai - Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration" - krátky program a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne [ako](https://pytorch.org/tutorials/beginner/nlp/sequence_models_tutorial.html). - [zaujimavy blog](http://jalammar.github.io/illustrated-transformer/) Ján Holp - Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing" - Sústreďte sa najprv na algoritmus PageRank a BM25 - citujte 10 najvýznamnejších bibliografických zdrojov Jakub Maruniak - Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing" - citujte min. 10 najvýznamnejších bibliografických zdrojov Dominik Nagy: - Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention) - citujte min. 10 najvýznamnejších bibliografických zdrojov Lukáš Pokrývka: - min. 4 strany rešerš na tému: "Paralelné spracovanie prirodzeného jazyka" alebo "Paralelné trénovanie sémantických modelov prorodzeného jazyka" (word2vec, word embeddings, GloVe, fastText) - citujte min. 10 najvýznamnejších bibliografických zdrojov