zpwiki/pages/teachers/hladek/subjects/dp2021/README.md

3.4 KiB

title published
Spracovanie prirodzeného jazyka a jazyk Python true

Tímový projekt 2019

Daniel Hládek - odporúčaný čas konzultácie: štvrtok o 9:00

Ciele:

  • oboznámiť sa so základmi spracovania prirodzeného jazyka
  • oboznámiť sa s jazykom Python
  • špecifikovať zadanie diplomovej práce
  • naučiť sa pracovať s odbornou literatúrou
  • oboznámiť kolegov s obsahom vykonanej práce

Študenti a témy

  • Maroš Harahus "Part of Speet Tagging" pomocou Spacy
  • Lukáš Pokrývka "Paralelné trénovanie sémantických modelov prirodzeného jazyka" (word2vec, word embeddings, GloVe, fastText)
  • Ján Holp (získavanie informácií)
  • Dominik Nagy (spelling correction, fairseq)
  • Dárius Lindvai (punctuation restoration, tutorial, pytorch, LSTM tutorial)
  • Jakub Maruniak (prodigy, vytvorenie korpusu, named-entity,

Podmienky na zápočet

Rozsah výstupu min. 3 A4 kvalitného textu

  • Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň)
  • vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov)
  • odovzdanie textu cez MOOODLE kľúč je TP2019
  • odovzdanie textu na GIT do Vašej profilovej stránky

Dátumy stretnutí

  • 10.10 - Harahus, Holp
  • 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému)
  • 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
  • 24.10 - Pracovná cesta
  • 28.10 o 9:00, Holp, Harahus
  • 31.10 - Dekanské voľno
  • 4.11 - Maruniak
  • 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus
  • 14.11 - Lindvai, Harahus, Holp
  • 21.11 - Lindvai
  • 28.11 - Harahus, Holp
  • 5.12. - Harahus
  • 12.12. - Holp, Harahus
  • 15.1. Nagy

Dárius Lindvai

  • Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
  • krátky program a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne ako.
  • zaujimavy blog

Jakub Maruniak

  • Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
  • citujte min. 10 najvýznamnejších bibliografických zdrojov

Dominik Nagy:

  • Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
  • citujte min. 10 najvýznamnejších bibliografických zdrojov

15.1.2020:

Návrh na zadanie DP:

  • Vypracujte teoretický prehľad metód "sequence to sequence".
  • Pripravte si dátovú množinu na trénovnie modelu sequence to sequence pre úlohu opravy preklepov.
  • Vyberte minmálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
  • Na základe výsledkov experimentov navrhnite zlepšenia