zpwiki/pages/02.authors/daniel-hladek/bp2020/README.md

176 lines
6.7 KiB
Markdown
Raw Normal View History

2019-11-19 12:07:02 +00:00
---
2020-03-25 14:27:10 +00:00
title: Bakalárska práca 2020
2019-11-19 12:07:02 +00:00
published: true
---
2020-03-25 14:27:10 +00:00
# Bakalárska práca 2020
Vedúci: Daniel Hládek
## Študenti a témy
- [Dmitro Ushatenko](/students/2017/dmytro_ushatenko) Jednoduchý chatbot v jazyku Python, [Repozitár](https://git.kemt.fei.tuke.sk/du707zr/BAKALRSKA_PRACA)
- [Patrik Pavlišin](/students/2016/patrik_pavlisin) (opakujúci) Štatistický strojový preklad
- [Stanislav Matsunych](/students/2017/stanislav_matsunych) (obhajoba v septembri) Rekurentné neurónové siete pre jazykové modelovanie a generovanie prirodzeného jazyka
- [Peter Maľar](/students/2017/peter_malar) (opakujúci) Automatická oprava preklepov
- [Ediz Morochovič](/students/2017/ediz_morochovic) (opakujúci) Identifikácia pomenovaných entít v slovenskom jazyku
2020-03-25 14:27:10 +00:00
- Andrej Hopko (ex): Anotácia lingvistického korpusu
- Kyryl Kobzar (ex): Identifikácia pomenovaných entít v prirodzenom jazyku s pomocou neurónových sietí
2020-03-25 14:27:10 +00:00
## Bakalársky projekt 2019/2020
2019-11-19 12:07:02 +00:00
- Vedúci: Daniel Hládek
- odporúčaný čas konzultácie: štvrtok o 9:00
2020-01-25 16:27:48 +00:00
- Oblasť: [Spracovanie prirodzeného jazyka](/topics/nlp), [Programovanie v jazyku Python](/topics/python)
2019-11-19 12:07:02 +00:00
2020-03-25 14:27:10 +00:00
### Ciele
- oboznámiť sa so základmi spracovania prirodzeného jazyka
- naučiť sa pracovať s [odbornou literatúrou](../zp)
- vypracovať článok na vybranú tému
- vytvoriť praktickú aplikáciu (demo, krátky program)
2020-03-25 14:27:10 +00:00
### Zápočet
Podmienky na zápočet:
- vypracovanie písomného prehľadu a práca so softvérom podľa pokynov vedúceho
- vypracovanie prezentácie a osobná obhajoba pred komisiou dňa 28. 1. 2020
- dohodnuté znenie zadania záverečnej práce
- vypracovaný osobný profil [podľa šablóny](../../../../students/2017/vzorny_student) v časti https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2017
- odovzdanie písomnej časti [cez Moodle](https://moodle.tuke.sk/moodle35/course/view.php?id=872&noprocess) heslo je BP2019
- odovzdanie písomnej časti do osobného profilu
2019-11-19 12:07:02 +00:00
2020-03-25 14:27:10 +00:00
### Stretnutia
2019-11-19 12:07:02 +00:00
- 10.10 - Hopko, Matsunych, Kobzar
- 17.10 - Hopko, Pavlišin, Matsunych, Kobzar, Ushatenko (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
- 21.10. - Maľar
- 24.10 - Pracovná cesta
- 28.10 o 9:30 -
- 31.10 - Dekanské voľno
- 4.11. - Hopko
- 7.11 - Maľar, Ushatenko
- 14.11 - Odovzdanie draftu reportu
2019-11-22 12:35:28 +00:00
- 22.11. Matsunych
- 19.12. Matsunych
- 21.1.2020 - Maľar, Hopko, Morochovič, Pavlišin
2019-11-19 12:07:02 +00:00
2020-03-25 14:27:10 +00:00
### Andrej Hopko
2019-11-19 12:07:02 +00:00
- Práca pomocou "Anaconda Prompt"
- Vyskúšať "python -m spacy" podľa tutoriálu na stránke
- Oboznámiť sa s https://prodi.gy/ (využíva spacy) a nainštalovať (python wheel)
Projekty:
2020-01-25 16:25:37 +00:00
- [NLP](/topics/nlp)
2020-01-25 16:27:48 +00:00
- [Python](/topics/python)
2020-01-25 16:26:46 +00:00
- [prodigy](/topics/prodigy)
2020-01-25 16:29:42 +00:00
- [spacy](/topics/spacy)
2019-11-19 12:07:02 +00:00
28.10
- Na idoc.fei.tuke.sk nainštalovať [Minoconda](https://repo.anaconda.com/miniconda/)
- pozrite si "python virtualenv" a [prostredia conda](https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html)
Cieľ:
- Vedieť pripraviť textové dáta na anotáciu pomocou Prodigy (textové dáta sa použijú na učenie systému)
- V prvom semestri bude výstup:
- Oboznámiť sa "ako písať záverečnú pracu"
- nainštalovaný systém prodigy
- Vybratá dátová množina pripravená vo vhodnom formáte.
- Pripravená anotačná uloha
- Report o inštalácii Prodigy a príprave anotačnej úlohy na cca 3 strany použiteľný ako návod pre druhých - vysvetlite na čo sú potrebné anotácie a čo je crowdsourcing
- V reporte spomente aspoň 3 odborné články na tému "crowdsourcing"
- V druhom semestri - rešerš o príprave trénovacích dát a crowdsourcingu.
2020-03-25 14:27:10 +00:00
### Kyryl Kobzar
2019-11-19 12:07:02 +00:00
Cieľom je:
Vedieť použiť nástroj Spacy na natrénovanie modelu a rozpoznávanie pomenovaných entít v texte v (anglickom) jazyku
Zdroje dát
https://lindat.mff.cuni.cz/repository/xmlui/
https://lindat.mff.cuni.cz/repository/xmlui/discover?field=subject&filtertype=subject&filter_relational_operator=equals&filter=named+entity+recognition
Výstup do prvého semestra:
- Tutoriál na cca 3-4 strany ako natrénovať a použiť Spacy na rozpoznávanie pomenovaných entít
- Rešerš na tému cca 10 strán : "Rozpoznávanie pomenovaných entít" - "named entity recognition", vystetlíte, čo to je, aké metódy sa používajú, ako sa to vyhodnocuje.
Projekty
2020-01-25 16:25:37 +00:00
- [NLP](/topics/nlp)
2020-01-25 16:27:48 +00:00
- [Python](/topics/python)
2020-01-25 16:23:44 +00:00
- [pomenované entity](/topics/named-entity)
2019-11-19 12:07:02 +00:00
V druhom semestri:
- natrénovanie vlastného modelu na vlastných dátach
- vyhodnotenie modelu
- dokončenie práce
2020-03-25 14:27:10 +00:00
### Peter Maľar
2019-11-19 12:07:02 +00:00
Cieľ:
Vytvoriť jednoduchý systém na opravu preklepov na báze neurónových sietí
Úlohy na tento semester:
- Naštudovať si článok "Sequence to sequence spelling correction..."
- Nainštalovať a vyskúšať [fairseq](https://github.com/pytorch/fairseq)
- Prejsť si tutoriál na strojový preklad https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md
- Vytvorte (prejdite krátky tutoriál - zapisujte čo ste urobili)
- Skúsiť zopakovať experimenty s použitím systému
- Vytvorte rešerš na tému "sequence to sequence systémy", "encoder-decoder" neurónové siete (5 strán, min. 5 odborných článkov)
Návrh na zadanie bakalárskej práce:
1. Vypracujte prehľad metód automatickej opravy preklepov.
2. Podrobne opíšte zvolenú metódu opravy preklepov.
3. Vykonajte sadu experimentov a vyhodnoťte presnosť zvolenej metódy.
4. Na základe výsledkov experimentov navrhnite zlepšenia.
2020-01-25 16:25:37 +00:00
- [NLP](/topics/nlp)
2020-01-25 16:27:48 +00:00
- [Python](/topics/python)
2020-01-25 16:28:47 +00:00
- [Sequence to Sequence](/topics/seq2seq)
2020-03-25 14:27:10 +00:00
### Ediz Morochovič
2019-11-19 12:07:02 +00:00
Zadanie BP:
1. Vypracujte prehľad štatistických metód identifikácie pomenovaných entít v texte.
2. Podrobne opíšte zvolenú metódu identifikácie pomenovaných entít v texte
3. Zvoľte si vhodnú metodiku vyhodnotenia a na vhodnej testovacej množine navrhnite a vykonajte sadu experimentov.
4. Na základe výsledkov experimentov navrhnite možné zlepšenia.
Úlohy:
- Nainštalujte si prostredie Anaconda https://www.anaconda.com/
- Oboznámiť sa so zvoleným štatistickým systémom pre rozpoznávanie pomenovaných entít (https://www.nltk.org/), https://www.nltk.org/install.html, https://stanfordnlp.github.io/CoreNLP/, https://www.nltk.org/book/
- Zistite použitú štatistickú metódu a podrobne ju opíšte
- Vypracujte prehľad používaných štatistických metód (maximum entropy, conditional random fields, hidden markov models), min. 5 strán s min. 10 odkazmi na odborné články
- Navrhnite experimenty a vykonajte ich s rôznymi parametrami systému
Projekty:
2019-11-19 12:07:02 +00:00
2020-01-25 16:25:37 +00:00
- [NLP](/topics/nlp)
2020-01-25 16:27:48 +00:00
- [Python](/topics/python)
2020-01-25 16:23:44 +00:00
- [pomenované entity](/topics/named-entity)
K (podmienenému) zápočtu:
- dokončiť GIT profil
- dokončiť písomnú časť - rozšíriť a doplniť citácie