dmytro_ushatenko/pages/teachers/hladek/bp2020/README.md

7.5 KiB

title published
Bakalárska práca 2020 true

Bakalárska práca 2020

Vedúci: Daniel Hládek

Študenti a témy

  • Dmitro Ushatenko Jednoduchý chatbot v jazyku Python, Repozitár
  • Patrik Pavlišin (opakujúci) Štatistický strojový preklad
  • Stanislav Matsunych (obhajoba v septembri) Rekurentné neurónové siete pre jazykové modelovanie a generovanie prirodzeného jazyka
  • Peter Maľar (opakujúci) Automatická oprava preklepov
  • Ediz Morochovič (opakujúci) Identifikácia pomenovaných entít v slovenskom jazyku
  • Andrej Hopko (ex): Anotácia lingvistického korpusu
  • Kyryl Kobzar (ex): Identifikácia pomenovaných entít v prirodzenom jazyku s pomocou neurónových sietí

Bakalársky projekt 2019/2020

Ciele

  • oboznámiť sa so základmi spracovania prirodzeného jazyka
  • naučiť sa pracovať s odbornou literatúrou
  • vypracovať článok na vybranú tému
  • vytvoriť praktickú aplikáciu (demo, krátky program)

Zápočet

Podmienky na zápočet:

Stretnutia

  • 10.10 - Hopko, Matsunych, Kobzar
  • 17.10 - Hopko, Pavlišin, Matsunych, Kobzar, Ushatenko (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
  • 21.10. - Maľar
  • 24.10 - Pracovná cesta
  • 28.10 o 9:30 -
  • 31.10 - Dekanské voľno
  • 4.11. - Hopko
  • 7.11 - Maľar, Ushatenko
  • 14.11 - Odovzdanie draftu reportu
  • 22.11. Matsunych
  • 19.12. Matsunych
  • 21.1.2020 - Maľar, Hopko, Morochovič, Pavlišin

Andrej Hopko

  • Práca pomocou "Anaconda Prompt"
  • Vyskúšať "python -m spacy" podľa tutoriálu na stránke
  • Oboznámiť sa s https://prodi.gy/ (využíva spacy) a nainštalovať (python wheel)

Projekty:

28.10

Cieľ:

  • Vedieť pripraviť textové dáta na anotáciu pomocou Prodigy (textové dáta sa použijú na učenie systému)
  • V prvom semestri bude výstup:
  • Oboznámiť sa "ako písať záverečnú pracu"
  • nainštalovaný systém prodigy
  • Vybratá dátová množina pripravená vo vhodnom formáte.
  • Pripravená anotačná uloha
  • Report o inštalácii Prodigy a príprave anotačnej úlohy na cca 3 strany použiteľný ako návod pre druhých - vysvetlite na čo sú potrebné anotácie a čo je crowdsourcing
  • V reporte spomente aspoň 3 odborné články na tému "crowdsourcing"
  • V druhom semestri - rešerš o príprave trénovacích dát a crowdsourcingu.

Kyryl Kobzar

Cieľom je:

Vedieť použiť nástroj Spacy na natrénovanie modelu a rozpoznávanie pomenovaných entít v texte v (anglickom) jazyku

Zdroje dát

https://lindat.mff.cuni.cz/repository/xmlui/

https://lindat.mff.cuni.cz/repository/xmlui/discover?field=subject&filtertype=subject&filter_relational_operator=equals&filter=named+entity+recognition

Výstup do prvého semestra:

  • Tutoriál na cca 3-4 strany ako natrénovať a použiť Spacy na rozpoznávanie pomenovaných entít
  • Rešerš na tému cca 10 strán : "Rozpoznávanie pomenovaných entít" - "named entity recognition", vystetlíte, čo to je, aké metódy sa používajú, ako sa to vyhodnocuje.

Projekty

V druhom semestri:

  • natrénovanie vlastného modelu na vlastných dátach
  • vyhodnotenie modelu
  • dokončenie práce

Dmytro Ushatenko

Cieľ:

Vytvorenie jednoduchého chatbota s použitím toolkitu RASA ktorý bude informovať o zvolenej téme, napr. o predmetoch štúdia prvého ročníka programu PS na KEMT:

Pomôcka pre začínajúcich študentov:

  • Čo mám robiť?

  • Aké predmety budem študovať?

  • Ako skončím predmet? (potrebujem zápočet a skúšku)

  • NLP

  • Python

  • pomenované entity

Úlohy na tento semester:

  • Prejdite si tutoriál https://rasa.com/docs/rasa/user-guide/rasa-tutorial/
  • Pripravte jednoduchý dialógový systém
  • Pripravte "návod na použitie", kde zapíšete čo ste spravili v tutoriáli
  • Vylepšite Vašu rešerš, dajte dôraz na citovanie zdrojov a na jazykovú stránku.

V druom semestri:

  • pripravíte si celé demo
  • dookončíte prácu

Peter Maľar

Cieľ:

Vytvoriť jednoduchý systém na opravu preklepov na báze neurónových sietí

Úlohy na tento semester:

  • Naštudovať si článok "Sequence to sequence spelling correction..."
  • Nainštalovať a vyskúšať fairseq
  • Prejsť si tutoriál na strojový preklad https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md
  • Vytvorte (prejdite krátky tutoriál - zapisujte čo ste urobili)
  • Skúsiť zopakovať experimenty s použitím systému
  • Vytvorte rešerš na tému "sequence to sequence systémy", "encoder-decoder" neurónové siete (5 strán, min. 5 odborných článkov)

Návrh na zadanie bakalárskej práce:

  1. Vypracujte prehľad metód automatickej opravy preklepov.
  2. Podrobne opíšte zvolenú metódu opravy preklepov.
  3. Vykonajte sadu experimentov a vyhodnoťte presnosť zvolenej metódy.
  4. Na základe výsledkov experimentov navrhnite zlepšenia.

Ediz Morochovič

Zadanie BP:

  1. Vypracujte prehľad štatistických metód identifikácie pomenovaných entít v texte.
  2. Podrobne opíšte zvolenú metódu identifikácie pomenovaných entít v texte
  3. Zvoľte si vhodnú metodiku vyhodnotenia a na vhodnej testovacej množine navrhnite a vykonajte sadu experimentov.
  4. Na základe výsledkov experimentov navrhnite možné zlepšenia.

Úlohy:

Projekty:

K (podmienenému) zápočtu:

  • dokončiť GIT profil
  • dokončiť písomnú časť - rozšíriť a doplniť citácie