forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | 
|---|---|
| Spracovanie prirodzeného jazyka a jazyk Python | true | 
Tímový projekt 2019
Vedúci:
Daniel Hládek - odporúčaný čas konzultácie: štvrtok o 9:00
Ciele:
- oboznámiť sa so základmi spracovania prirodzeného jazyka
 - oboznámiť sa s jazykom Python
 - špecifikovať zadanie diplomovej práce
 - naučiť sa pracovať s odbornou literatúrou
 - oboznámiť kolegov s obsahom vykonanej práce
 
Výstupy:
Rozsah výstupu min. 3 A4 kvalitného textu
- Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň)
 - vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov)
 - odovzdanie cez MOOODLE kľúč je TP2019
 
Odporúčané nástroje:
- Prostredie Anaconda
 - Chatbot RASA
 - Knižnica Spacy
 - Anotácie Prodigy
 - Získavanie informácií Elasticsearch
 - seq2seq Neurónové siete Fairseq
 - webové aplikácie a REST Flask
 
Odporúčané témy:
- identifikácia pomenovaných entít (named entity recognition)
 - dialógové systémy (chatbot)
 - strojový preklad (machine translation)
 - oprava preklepov (spelling error correction, diacritics restoration)
 - získavanie informácií (vyhľadávanie v texte)
 - identifikácia viacslovných výrazov (chunking)
 - anotácia textových dát
 
Informácie a literatúra:
- Spacy Tutoriál
 - Dive into Python (česky)
 - Natural Language Processing in Action (git)
 - Python Data Science Handbook
 - Speech and Language Processing 2rd edition
 - Speech and Language Processing 3rd edition
 
Postup:
- Nainštaluj si Anacondu
 - Prečítaj si materiály
 - Vyber si zaujímavú úlohu a nástroj
 - Vyskúšaj nástroj
 - Napíš správu o riešení úlohy
 
Tím 2019:
- Lukáš Pokrývka (flask demo, named entity)
 - Dominik Nagy (spelling correction, fairseq)
 - Maroš Harahus (part-of-speech tagging)
 - Ján Holp (získavanie informácií)
 - Dárius Lindvai (punctuation restoration, tutorial, pytorch, LSTM tutorial)
 - Jakub Maruniak (prodigy, vytvorenie korpusu, named-entity,
 
Dátumy stretnutí:
- 10.10 - Harahus, Holp
 - 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému)
 - 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
 - 24.10 - Pracovná cesta
 - 28.10 o 9:00, Holp, Harahus
 - 31.10 - Dekanské voľno
 - 4.11 - Maruniak
 - 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus
 - 14.11 - Lindvai, Harahus, Holp
 
Maroš Harahus
- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).
 - Návrh na zadanie: Doplnenie podpory slovenského jazyka do nlp frameworku (spacy alebo flair)
 
Dárius Lindvai
- Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
 - krátky program a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne ako.
 - zaujimavy blog
 
Ján Holp
- Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
 - citujte 10 najvýznamnejších bibliografických zdrojov
 
Jakub Maruniak
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
 - citujte min. 10 najvýznamnejších bibliografických zdrojov
 
Dominik Nagy:
- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
 - citujte min. 10 najvýznamnejších bibliografických zdrojov
 
Lukáš Pokrývka:
- min. 4 strany rešerš na tému: "Paralelné spracovanie prirodzeného jazyka" alebo "Paralelné trénovanie sémantických modelov prorodzeného jazyka" (word2vec, word embeddings, GloVe, fastText)
 - citujte min. 10 najvýznamnejších bibliografických zdrojov