zpwiki/pages/teachers/hladek/subjects/dp2021
2019-12-05 08:58:21 +00:00
..
README.md Update 'pages/teachers/hladek/subjects/dp2021/README.md' 2019-12-05 08:58:21 +00:00

title published
Spracovanie prirodzeného jazyka a jazyk Python true

Tímový projekt 2019

Daniel Hládek - odporúčaný čas konzultácie: štvrtok o 9:00

Tím 2019

  • Vzorový študent
  • Lukáš Pokrývka (flask demo, named entity)
  • Dominik Nagy (spelling correction, fairseq)
  • Maroš Harahus (part-of-speech tagging)
  • Ján Holp (získavanie informácií)
  • Dárius Lindvai (punctuation restoration, tutorial, pytorch, LSTM tutorial)
  • Jakub Maruniak (prodigy, vytvorenie korpusu, named-entity,

Ciele:

  • oboznámiť sa so základmi spracovania prirodzeného jazyka
  • oboznámiť sa s jazykom Python
  • špecifikovať zadanie diplomovej práce
  • naučiť sa pracovať s odbornou literatúrou
  • oboznámiť kolegov s obsahom vykonanej práce

Výstupy:

Rozsah výstupu min. 3 A4 kvalitného textu

  • Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň)
  • vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov)
  • odovzdanie cez MOOODLE kľúč je TP2019

Odporúčané nástroje:

Odporúčané témy:

  • identifikácia pomenovaných entít (named entity recognition)
  • dialógové systémy (chatbot)
  • strojový preklad (machine translation)
  • oprava preklepov (spelling error correction, diacritics restoration)
  • získavanie informácií (vyhľadávanie v texte)
  • identifikácia viacslovných výrazov (chunking)
  • anotácia textových dát

Informácie a literatúra:

Postup:

  • Nainštaluj si Anacondu
  • Prečítaj si materiály
  • Vyber si zaujímavú úlohu a nástroj
  • Vyskúšaj nástroj
  • Napíš správu o riešení úlohy

Dátumy stretnutí:

  • 10.10 - Harahus, Holp
  • 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému)
  • 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
  • 24.10 - Pracovná cesta
  • 28.10 o 9:00, Holp, Harahus
  • 31.10 - Dekanské voľno
  • 4.11 - Maruniak
  • 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus
  • 14.11 - Lindvai, Harahus, Holp
  • 21.11 - Lindvai
  • 28.11 - Harahus, Holp
  • 5.12. - Harahus

Maroš Harahus

  • Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).
  • Návrh na zadanie: Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)
  • Úloha na ďalší semester:

Návrh na zadanie DP:

  • Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka.
  • Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania
  • Vyhodnotte presnosť značkovania a navrhnite možné zlepšenia.

Dárius Lindvai

  • Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
  • krátky program a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne ako.
  • zaujimavy blog

Ján Holp

  • Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
  • Sústreďte sa najprv na algoritmus PageRank a BM25
  • citujte 10 najvýznamnejších bibliografických zdrojov

Jakub Maruniak

  • Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
  • citujte min. 10 najvýznamnejších bibliografických zdrojov

Dominik Nagy:

  • Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
  • citujte min. 10 najvýznamnejších bibliografických zdrojov

Lukáš Pokrývka:

  • min. 4 strany rešerš na tému: "Paralelné spracovanie prirodzeného jazyka" alebo "Paralelné trénovanie sémantických modelov prorodzeného jazyka" (word2vec, word embeddings, GloVe, fastText)
  • citujte min. 10 najvýznamnejších bibliografických zdrojov