.. | ||
README.md |
title | published |
---|---|
Spracovanie prirodzeného jazyka a jazyk Python | true |
Tímový projekt 2019
Daniel Hládek - odporúčaný čas konzultácie: štvrtok o 9:00
Tím 2019
-
Maroš Harahus "Part of Speet Tagging" pomocou Spacy
-
Lukáš Pokrývka "Paralelné trénovanie sémantických modelov prirodzeného jazyka" (word2vec, word embeddings, GloVe, fastText)
-
Ján Holp (získavanie informácií)
-
Dominik Nagy (spelling correction, fairseq)
-
Dárius Lindvai (punctuation restoration, tutorial, pytorch, LSTM tutorial)
-
Jakub Maruniak (prodigy, vytvorenie korpusu, named-entity,
Ciele:
- oboznámiť sa so základmi spracovania prirodzeného jazyka
- oboznámiť sa s jazykom Python
- špecifikovať zadanie diplomovej práce
- naučiť sa pracovať s odbornou literatúrou
- oboznámiť kolegov s obsahom vykonanej práce
Výstupy:
Rozsah výstupu min. 3 A4 kvalitného textu
- Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň)
- vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov)
- odovzdanie cez MOOODLE kľúč je TP2019
Odporúčané nástroje:
- Prostredie Anaconda
- Chatbot RASA
- Knižnica Spacy
- Anotácie Prodigy
- Získavanie informácií Elasticsearch
- seq2seq Neurónové siete Fairseq
- webové aplikácie a REST Flask
Odporúčané témy:
- identifikácia pomenovaných entít (named entity recognition)
- dialógové systémy (chatbot)
- strojový preklad (machine translation)
- oprava preklepov (spelling error correction, diacritics restoration)
- získavanie informácií (vyhľadávanie v texte)
- identifikácia viacslovných výrazov (chunking)
- anotácia textových dát
Informácie a literatúra:
- Spacy Tutoriál
- Dive into Python (česky)
- Natural Language Processing in Action (git)
- Python Data Science Handbook
- Speech and Language Processing 2rd edition
- Speech and Language Processing 3rd edition
Postup:
- Nainštaluj si Anacondu
- Prečítaj si materiály
- Vyber si zaujímavú úlohu a nástroj
- Vyskúšaj nástroj
- Napíš správu o riešení úlohy
Dátumy stretnutí:
- 10.10 - Harahus, Holp
- 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému)
- 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
- 24.10 - Pracovná cesta
- 28.10 o 9:00, Holp, Harahus
- 31.10 - Dekanské voľno
- 4.11 - Maruniak
- 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus
- 14.11 - Lindvai, Harahus, Holp
- 21.11 - Lindvai
- 28.11 - Harahus, Holp
- 5.12. - Harahus
- 12.12. - Holp
Dárius Lindvai
- Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
- krátky program a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne ako.
- zaujimavy blog
Jakub Maruniak
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
- citujte min. 10 najvýznamnejších bibliografických zdrojov
Dominik Nagy:
- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
- citujte min. 10 najvýznamnejších bibliografických zdrojov