2019-11-19 12:07:02 +00:00
---
title: Spracovanie prirodzeného jazyka a jazyk Python
published: true
---
# Tímový projekt 2019
[Daniel Hládek ](../ ) - odporúčaný čas konzultácie: štvrtok o 9:00
2019-11-28 08:12:26 +00:00
# Tím 2019
2019-11-25 12:12:08 +00:00
2019-12-12 08:59:53 +00:00
- [Maroš Harahus ](../../../../students/2016/maros_harahus ) "Part of Speet Tagging" pomocou Spacy
- [Lukáš Pokrývka ](../../../../students/2016/lukas_pokryvka ) "Paralelné trénovanie sémantických modelov prirodzeného jazyka" (word2vec, word embeddings, GloVe, fastText)
2019-12-12 09:27:03 +00:00
- [Ján Holp ](../../../../students/2016/jan_holp ) (získavanie informácií)
2019-11-25 12:12:08 +00:00
- Dominik Nagy (spelling correction, fairseq)
- Dárius Lindvai (punctuation restoration, [tutorial ](https://medium.com/@praneethbedapudi/deepcorrection2-automatic-punctuation-restoration-ac4a837d92d9 ), pytorch, LSTM tutorial)
- Jakub Maruniak (prodigy, vytvorenie korpusu, [named-entity ](../prodigy ),
2019-11-19 12:07:02 +00:00
Ciele:
- oboznámiť sa so základmi spracovania prirodzeného jazyka
- oboznámiť sa s jazykom Python
- špecifikovať zadanie diplomovej práce
- naučiť sa pracovať s [odbornou literatúrou ](../zp )
- oboznámiť kolegov s obsahom vykonanej práce
Výstupy:
Rozsah výstupu min. 3 A4 kvalitného textu
- Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň)
- vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov)
- odovzdanie cez [MOOODLE ](https://moodle.tuke.sk/moodle35/course/view.php?id=874 ) kľúč je TP2019
Odporúčané nástroje:
- Prostredie [Anaconda ](https://www.anaconda.com/distribution/ )
- Chatbot [RASA ](https://rasa.com/ )
- Knižnica [Spacy ](https://spacy.io/ )
- Anotácie [Prodigy ](https://prodi.gy/ )
- Získavanie informácií [Elasticsearch ](https://www.elastic.co/products/elasticsearch )
- seq2seq Neurónové siete [Fairseq ](https://github.com/pytorch/fairseq )
- webové aplikácie a REST [Flask ](https://www.fullstackpython.com/flask.html )
Odporúčané témy:
- [identifikácia pomenovaných entít ](./named-entity ) (named entity recognition)
- [dialógové systémy ](./chatbot ) (chatbot)
- strojový preklad (machine translation)
- oprava preklepov (spelling error correction, diacritics restoration)
- získavanie informácií (vyhľadávanie v texte)
- identifikácia viacslovných výrazov (chunking)
- anotácia textových dát
Informácie a literatúra:
- [Spacy Tutoriál ](https://nlpforhackers.io/complete-guide-to-spacy/ )
- [Dive into Python ](https://diveintopython3.problemsolving.io/ ) [(česky) ](http://diveintopython3.py.cz/index.html )
- [Natural Language Processing in Action ](https://www.manning.com/books/natural-language-processing-in-action ) [(git) ](https://github.com/totalgood/nlpia )
- [Python Data Science Handbook ](https://github.com/jakevdp/PythonDataScienceHandbook )
- [Speech and Language Processing 2rd edition ](https://github.com/rain1024/slp2-pdf )
- [Speech and Language Processing 3rd edition ](https://web.stanford.edu/~jurafsky/slp3/ )
Postup:
- Nainštaluj si Anacondu
- Prečítaj si materiály
- Vyber si zaujímavú úlohu a nástroj
- Vyskúšaj nástroj
- Napíš správu o riešení úlohy
Dátumy stretnutí:
- 10.10 - Harahus, Holp
- 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému)
- 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
- 24.10 - Pracovná cesta
- 28.10 o 9:00, Holp, Harahus
- 31.10 - Dekanské voľno
- 4.11 - Maruniak
- 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus
- 14.11 - Lindvai, Harahus, Holp
2019-11-22 12:35:28 +00:00
- 21.11 - Lindvai
2019-11-28 08:12:26 +00:00
- 28.11 - Harahus, Holp
2019-12-05 08:58:21 +00:00
- 5.12. - Harahus
2019-12-12 09:20:23 +00:00
- 12.12. - Holp, Harahus
2020-01-15 13:03:40 +00:00
- 15.1. Nagy
2019-11-19 12:07:02 +00:00
Dárius Lindvai
- Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
- krátky program a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne [ako ](https://pytorch.org/tutorials/beginner/nlp/sequence_models_tutorial.html ).
- [zaujimavy blog ](http://jalammar.github.io/illustrated-transformer/ )
Jakub Maruniak
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
- citujte min. 10 najvýznamnejších bibliografických zdrojov
Dominik Nagy:
- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
- citujte min. 10 najvýznamnejších bibliografických zdrojov
2020-01-15 13:33:47 +00:00
15.1.2020:
- Prečítajte si o [konvolučných sieťach ](http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/ )
- Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic
Spelling Correction
- Skúste si nainštalovať nástroj fairseq
- prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md
Návrh na zadanie DP:
- Vypracujte teoretický prehľad metód "sequence to sequence".
- Pripravte si dátovú množinu na trénovnie modelu sequence to sequence pre úlohu opravy preklepov.
- Vyberte minmálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
- Na základe výsledkov experimentov navrhnite zlepšenia