This commit is contained in:
Daniel Hladek 2019-11-19 13:07:02 +01:00
parent 5e065b59ff
commit 607b4c46c7
16 changed files with 556 additions and 209 deletions

View File

@ -0,0 +1,38 @@
---
title: chatbot
---
# Chatbot
Ciele: Vytvorenie demonštračnej aplikácie pre interaktívnu komunikáciu s
automatom
## Zdroje
- <https:%%//%%chatbotslife.com/how-you-can-build-your-first-chatbot-using-rasa-in-under-15-minutes-ce557ea52f2f>
- <https:%%//%%medium.com/analytics-vidhya/building-a-simple-chatbot-in-python-using-nltk-7c8c8215ac6e>
### Prostriedky
- [RASA toolbox](https://rasa.com/)
- Slack(<https:%%//%%slack.com>) - ako rozhranie
## Riešitelia
- Dmytro Ushatenko (Daniel Hládek), 19/20
- Jozef Olekšák (Stanislav Ondáš) 18/19 Riadenie dialógu na báze
štatických metód
## Existujúce riešenia
- [KEMT Bot](https://kemt.fei.tuke.sk)
- <https:%%//%%jobothq.slack.com/>
## Riešiteľ 1
Zadanie:
1. Vypracujte úvod do problematiky systémov pre riadenie dialógu
2. Vypracujte prehľad používaných metód riadenia dialógu
3. Navrhnite a implementujte agenta pre zisťovanie informácií o katedre
KEM

55
pages/01.home/README.md Normal file
View File

@ -0,0 +1,55 @@
# Záverečné práce na KEMT
Wiki stánka pre prezentáciu a spoluprácu na záverečných prácach.
## Ako sa zúčastním
Všetky stánky sú napísané vo formáte Markdown. Je možné ich editovať pomocou webového rozhrania alebo
pomocou Vášho obľúbeného textového editora a synchronizovať s Vašim počítačom.
## Kto to uvidí
Všetky stránky sú prístupné pre všetkých prihlásených používateľov.
## Čo tu nájdem
- informácie o vedúcich záverečných prác
- zadania záverečných prác
- návody ako vytvoriť záverečnú prácu
- články o zaujímavých témach
- predbežné výsledky
- referáty
- bakalárske práce
- diplomové práce
- odkazy na repozitáre so zdrojovým kódom
---
title: Záverečné práce a projekty
published: true
---
- Vedúci: Daniel Hládek
- odporúčaný čas konzultácie: štvrtok o 9:00
- Oblasť výskumu: Spracovanie prirodzeného jazyka
# Predmety
- [Bakalársky projekt 2019](./bp20)
- [Tímový projekt 2019](./tim)
- [Bakalárske práce 2018/2019](./bp19)
# Ako písať záverečnú prácu
- [Ako písať záverečnú prácu](http://akopisatprace.sk/wp-content/uploads/ako_pisat_zav_prace_final_skratene2_6.pdf)
- [Odovzdanie a šablóna](https://portal.lib.tuke.sk/etd/)
## Zadanie záverečnej práce
1. Definujte PROBLÉM
2. Vypracujte prehľad možných metód riešenia a vyberte vhodnú METÓDU
3. Vyberte metódu OHODNOTENIA, navrhnite a vykonajte EXPERIMENTY.
4. Vyhodnoťte experimenty a navrhnite možné zlepšenia

View File

@ -1,42 +0,0 @@
---
title: Home
body_classes: title-center title-h1h2
---
# Say Hello to Grav!
## installation successful...
Congratulations! You have installed the **Base Grav Package** that provides a **simple page** and the default **Quark** theme to get you started.
!! If you see a **404 Error** when you click `Typography` in the menu, please refer to the [troubleshooting guide](http://learn.getgrav.org/troubleshooting/page-not-found).
### Find out all about Grav
* Learn about **Grav** by checking out our dedicated [Learn Grav](http://learn.getgrav.org) site.
* Download **plugins**, **themes**, as well as other Grav **skeleton** packages from the [Grav Downloads](http://getgrav.org/downloads) page.
* Check out our [Grav Development Blog](http://getgrav.org/blog) to find out the latest goings on in the Grav-verse.
!!! If you want a more **full-featured** base install, you should check out [**Skeleton** packages available in the downloads](http://getgrav.org/downloads).
### Edit this Page
To edit this page, simply navigate to the folder you installed **Grav** into, and then browse to the `user/pages/01.home` folder and open the `default.md` file in your [editor of choice](http://learn.getgrav.org/basics/requirements). You will see the content of this page in [Markdown format](http://learn.getgrav.org/content/markdown).
### Create a New Page
Creating a new page is a simple affair in **Grav**. Simply follow these simple steps:
1. Navigate to your pages folder: `user/pages/` and create a new folder. In this example, we will use [explicit default ordering](http://learn.getgrav.org/content/content-pages) and call the folder `03.mypage`.
2. Launch your text editor and paste in the following sample code:
---
title: My New Page
---
# My New Page!
This is the body of **my new page** and I can easily use _Markdown_ syntax here.
3. Save this file in the `user/pages/03.mypage/` folder as `default.md`. This will tell **Grav** to render the page using the **default** template.
4. That is it! Reload your browser to see your new page in the menu.
! NOTE: The page will automatically show up in the Menu after the "Typography" menu item. If you wish to change the name that shows up in the Menu, simple add: `menu: My Page` between the dashes in the page content. This is called the YAML front matter, and it is where you configure page-specific options.

View File

@ -1,9 +0,0 @@
---
title: ''
media_order: ''
body_classes: ''
order_by: ''
order_manual: ''
---
# sdfadsfdsf

View File

@ -0,0 +1,44 @@
---
title: named-entity
---
# Named Entities
## Goals
- Be able to recognize unknown named entities
- Create a manually annotated training set from speech transcripts
- Propose an annotation schema
## Plan
- Convert speech transcripts into a training set
- Train and evaluate classifier
- Establish manual annotation
- Select unannotated data
### Data preparation
Input: Transcriber transcripts with inconsistent annotations
```
* First small letter: regular word
* Capital: named entity
* ''^^'': faoreign word
* ''@'': noise
* ''_'': multi word expression
* ''/'': pronuncation
```
Output: A file that can be read by `spacy convert`
## People
Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
## Tools
```
* Machine learning : https://spacy.io/usage/training
* Manual Annotation : https://prodi.gy/
```

View File

@ -1,155 +0,0 @@
---
title: Typography
---
! Details on the full capabilities of Spectre.css can be found in the [Official Spectre Documentation](https://picturepan2.github.io/spectre/elements.html)
The [Quark theme](https://github.com/getgrav/grav-theme-quark) is the new default theme for Grav built with [Spectre.css](https://picturepan2.github.io/spectre/) the lightweight, responsive and modern CSS framework. Spectre provides basic styles for typography, elements, and a responsive layout system that utilizes best practices and consistent language design.
### Headings
# H1 Heading `40px`
## H2 Heading `32px`
### H3 Heading `28px`
#### H4 Heading `24px`
##### H5 Heading `20px`
###### H6 Heading `16px`
```html
# H1 Heading
# H1 Heading `40px`</small>`
<span class="h1">H1 Heading</span>
```
### Paragraphs
Lorem ipsum dolor sit amet, consectetur [adipiscing elit. Praesent risus leo, dictum in vehicula sit amet](#), feugiat tempus tellus. Duis quis sodales risus. Etiam euismod ornare consequat.
Climb leg rub face on everything give attitude nap all day for under the bed. Chase mice attack feet but rub face on everything hopped up on goofballs.
### Markdown Semantic Text Elements
**Bold** `**Bold**`
_Italic_ `_Italic_`
~~Deleted~~ `~~Deleted~~`
`Inline Code` `` `Inline Code` ``
### HTML Semantic Text Elements
<abbr>I18N</abbr> `<abbr>`
<cite>Citation</cite> `<cite>`
<kbd>Ctrl + S</kbd> `<kbd>`
Text<sup>Superscripted</sup> `<sup>`
Text<sub>Subscripted</sub> `<sub>`
<u>Underlined</u> `<u>`
<mark>Highlighted</mark> `<mark>`
<time>20:14</time> `<time>`
<var>x = y + 2</var> `<var>`
### Blockquote
> The advance of technology is based on making it fit in so that you don't really even notice it,
> so it's part of everyday life.
>
> <cite>- Bill Gates</cite>
```markdown
> The advance of technology is based on making it fit in so that you don't really even notice it,
> so it's part of everyday life.
>
> <cite>- Bill Gates</cite>
```
### Unordered List
* list item 1
* list item 2
* list item 2.1
* list item 2.2
* list item 2.3
* list item 3
```markdown
* list item 1
* list item 2
* list item 2.1
* list item 2.2
* list item 2.3
* list item 3
```
### Ordered List
1. list item 1
1. list item 2
1. list item 2.1
1. list item 2.2
1. list item 2.3
1. list item 3
```markdown
1. list item 1
1. list item 2
1. list item 2.1
1. list item 2.2
1. list item 2.3
1. list item 3
```
### Table
| Name | Genre | Release date |
| :-------------------------- | :---------------------------: | -------------------: |
| The Shawshank Redemption | Crime, Drama | 14 October 1994 |
| The Godfather | Crime, Drama | 24 March 1972 |
| Schindler's List | Biography, Drama, History | 4 February 1994 |
| Se7en | Crime, Drama, Mystery | 22 September 1995 |
```markdown
| Name | Genre | Release date |
| :-------------------------- | :---------------------------: | -------------------: |
| The Shawshank Redemption | Crime, Drama | 14 October 1994 |
| The Godfather | Crime, Drama | 24 March 1972 |
| Schindler's List | Biography, Drama, History | 4 February 1994 |
| Se7en | Crime, Drama, Mystery | 22 September 1995 |
```
### Notices
The notices styles are actually provided by the `markdown-notices` plugin but are useful enough to include here:
! This is a warning notification
!! This is a error notification
!!! This is a default notification
!!!! This is a success notification
```markdown
! This is a warning notification
!! This is a error notification
!!! This is a default notification
!!!! This is a success notification
```

View File

@ -0,0 +1,14 @@
---
title: named-entity
---
# Sequence to sequence
Niektoré zaujímavé odkazy na tému sequence to sequence:
https://github.com/pytorch/fairseq
## Transformer
http://jalammar.github.io/illustrated-transformer/
https://arxiv.org/abs/1706.03762

22
pages/04.nlp/README.md Normal file
View File

@ -0,0 +1,22 @@
---
title: Spracovanie prirodzeného jazyka
published: true
---
# Spracovanie prirodzeného jazyka
## Knihy
- Lane, Howard, Hopke: Natural language processing in action
## Knižnice Python
- Flair https://github.com/zalandoresearch/flair
- Spacy https://spacy.io/
## Word Embedding
- https://nlp.stanford.edu/projects/glove/
- https://fasttext.cc/
- https://radimrehurek.com/gensim/ (topic modelling)
-

View File

@ -0,0 +1,30 @@
---
title: Anotácia textových dát
published: true
---
# Anotácia textových dát
- Natrénovanie štatistického modelu pre spracovanie prirodzeného jazyka zo slovenských dát
- Manuálna anotácia slovenských dát pre výskyt pomenovaných entít
## Postup
- Definovanie anotačnej schémy
- Príprava dátovej množiny vhodnej na anotáciu
- Natrénovanie štatistického modelu Spacy
- Príprava anotačnej úlohy Prodigy
## Nástroje
- Python (príprava dát)
- Spacy (štatistický model) [Spacy](https://spacy.io/))
- [Prodigy](https://prodi.gy/) (anotácie)
## Riešitelia
- Andrej Hopko (BP)
- Lukáš Pokrývka (TP)
- Jakub Maruniak
- [Cesar Gutierez](../named-entity) (stáž leto 2019)

51
pages/20.zp/README.md Normal file
View File

@ -0,0 +1,51 @@
---
title: Záverečné práce a projekty
published: true
---
# Ako písať záverečnú prácu
- [Ako písať záverečnú prácu](http://akopisatprace.sk/wp-content/uploads/ako_pisat_zav_prace_final_skratene2_6.pdf)
- [Odovzdanie a šablóna](https://portal.lib.tuke.sk/etd/)
Predstavte čitateľovi problém a možné spôsoby riešenia. Z možných spôsobov vyberte jeden a odôvodnite že prečo.
V praktickej časti opíšte vykonané experimenty a výsledky uch vyhodnotenia tak aby ich bolo možné opakovať.
V závere identifikujte slabé miesta a navrhnite zlepšenia.
# Využívajte indexy odbornej literatúry
- https://scholar.google.sk/
- https://www.scopus.com/ (prístupné iba zo školy)
# Používajte softvér na manažment citácií
Keď prečitate článok, uchovajte si bibliografický záznam pre ľahšie citovanie
- [Mendeley](https://www.mendeley.com/)
- [JabRef](https://www.jabref.org/)
# Ako citovať
- https://ippr.sk/c/204-citacie-parafrazy-bibliograficke-odkazy-iso-690
- Pri konkrétnych tvrdeniach sa odvolajte na zdroj odbornej literatúry.
- Preferujte aktuálne a kvalitné zdroje (nie rôzne blogy, manuály alebo tutoriály).
- Citácie by mali byť krátke.
- Doslovné citácie zvýraznite oddelené od ostatného textu.
- Sú povolené aj kratšie parafrázy.
- Počet referencia by mal byť min. 1 na každé dve strany.
# Používajte správne slovenské termíny
Ak ste si nie istí prekladom pojmu z angličtiny , pozrite si slovenskú literatúru na danú tému.
Konzultujte existujúce odborné slovníky napr. z:
- https://terminologickyportal.sk/
## Zadanie záverečnej práce
1. Definujte PROBLÉM
2. Vypracujte prehľad možných metód riešenia a vyberte vhodnú METÓDU
3. Vyberte metódu OHODNOTENIA, navrhnite a vykonajte EXPERIMENTY.
4. Vyhodnoťte experimenty a navrhnite možné zlepšenia

119
pages/30.tim/README.md Normal file
View File

@ -0,0 +1,119 @@
---
title: Spracovanie prirodzeného jazyka a jazyk Python
published: true
---
# Tímový projekt 2019
Vedúci:
[Daniel Hládek](../) - odporúčaný čas konzultácie: štvrtok o 9:00
[Pokyny KEMT](http://kemt.fei.tuke.sk/studium/diplomova-praca/organizacne-pokyny-k-predmetu-timovy-projekt-v-st-programe-pocitacove-siete-2019-2020/)
Ciele:
- oboznámiť sa so základmi spracovania prirodzeného jazyka
- oboznámiť sa s jazykom Python
- špecifikovať zadanie diplomovej práce
- naučiť sa pracovať s [odbornou literatúrou](../zp)
- oboznámiť kolegov s obsahom vykonanej práce
Výstupy:
Rozsah výstupu min. 3 A4 kvalitného textu
- Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň)
- vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov)
- odovzdanie cez [MOOODLE](https://moodle.tuke.sk/moodle35/course/view.php?id=874) kľúč je TP2019
Odporúčané nástroje:
- Prostredie [Anaconda](https://www.anaconda.com/distribution/)
- Chatbot [RASA](https://rasa.com/)
- Knižnica [Spacy](https://spacy.io/)
- Anotácie [Prodigy](https://prodi.gy/)
- Získavanie informácií [Elasticsearch](https://www.elastic.co/products/elasticsearch)
- seq2seq Neurónové siete [Fairseq](https://github.com/pytorch/fairseq)
- webové aplikácie a REST [Flask](https://www.fullstackpython.com/flask.html)
Odporúčané témy:
- [identifikácia pomenovaných entít](./named-entity) (named entity recognition)
- [dialógové systémy](./chatbot) (chatbot)
- strojový preklad (machine translation)
- oprava preklepov (spelling error correction, diacritics restoration)
- získavanie informácií (vyhľadávanie v texte)
- identifikácia viacslovných výrazov (chunking)
- anotácia textových dát
Informácie a literatúra:
- [Spacy Tutoriál](https://nlpforhackers.io/complete-guide-to-spacy/)
- [Dive into Python](https://diveintopython3.problemsolving.io/) [(česky)](http://diveintopython3.py.cz/index.html)
- [Natural Language Processing in Action](https://www.manning.com/books/natural-language-processing-in-action) [(git)](https://github.com/totalgood/nlpia)
- [Python Data Science Handbook](https://github.com/jakevdp/PythonDataScienceHandbook)
- [Speech and Language Processing 2rd edition](https://github.com/rain1024/slp2-pdf)
- [Speech and Language Processing 3rd edition](https://web.stanford.edu/~jurafsky/slp3/)
Postup:
- Nainštaluj si Anacondu
- Prečítaj si materiály
- Vyber si zaujímavú úlohu a nástroj
- Vyskúšaj nástroj
- Napíš správu o riešení úlohy
Tím 2019:
- Lukáš Pokrývka (flask demo, named entity)
- Dominik Nagy (spelling correction, fairseq)
- Maroš Harahus (part-of-speech tagging)
- Ján Holp (získavanie informácií)
- Dárius Lindvai (punctuation restoration, [tutorial](https://medium.com/@praneethbedapudi/deepcorrection2-automatic-punctuation-restoration-ac4a837d92d9), pytorch, LSTM tutorial)
- Jakub Maruniak (prodigy, vytvorenie korpusu, [named-entity](../prodigy),
Dátumy stretnutí:
- 10.10 - Harahus, Holp
- 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému)
- 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
- 24.10 - Pracovná cesta
- 28.10 o 9:00, Holp, Harahus
- 31.10 - Dekanské voľno
- 4.11 - Maruniak
- 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus
- 14.11 - Lindvai, Harahus, Holp
Maroš Harahus
- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).
- Návrh na zadanie: Doplnenie podpory slovenského jazyka do nlp frameworku (spacy alebo flair)
Dárius Lindvai
- Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
- krátky program a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne [ako](https://pytorch.org/tutorials/beginner/nlp/sequence_models_tutorial.html).
- [zaujimavy blog](http://jalammar.github.io/illustrated-transformer/)
Ján Holp
- Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
- citujte 10 najvýznamnejších bibliografických zdrojov
Jakub Maruniak
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
- citujte min. 10 najvýznamnejších bibliografických zdrojov
Dominik Nagy:
- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
- citujte min. 10 najvýznamnejších bibliografických zdrojov
Lukáš Pokrývka:
- min. 4 strany rešerš na tému: "Paralelné spracovanie prirodzeného jazyka" alebo "Paralelné trénovanie sémantických modelov prorodzeného jazyka" (word2vec, word embeddings, GloVe, fastText)
- citujte min. 10 najvýznamnejších bibliografických zdrojov

9
pages/39.bp19/README.md Normal file
View File

@ -0,0 +1,9 @@
---
title: Bakalárske práce 2018/2019
published: true
---
- Vyhľadávač na slovenskom internete: [Ján Holp](http://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1&seo=CRZP-detail-kniha)
- Identifikácia hraníc viet a dopĺňanie interpunkčných znamienok: [Dárius Lindvai](http://opac.crzp.sk/?fn=detailBiblioForm&sid=2D0B46080A5AC858AA11B21AE978&seo=CRZP-detail-kniha)
- Patrik Pavlišin TBD

Binary file not shown.

174
pages/40.bp20/README.md Normal file
View File

@ -0,0 +1,174 @@
---
title: Bakalársky projekt 2019/2020
published: true
---
# Bakalársky projekt 2019/2020
- Vedúci: Daniel Hládek
- odporúčaný čas konzultácie: štvrtok o 9:00
- Oblasť výskumu: Spracovanie prirodzeného jazyka
# Ciele
- oboznámiť sa so základmi spracovania prirodzeného jazyka
- naučiť sa pracovať s [odbornou literatúrou](../zp)
# Výstupy
- článok na vybranú tému
- praktická aplikácia (demo, krátky program)
- [Odovzdanie cez Moodle](https://moodle.tuke.sk/moodle35/course/view.php?id=872&noprocess) heslo je BP2019
# Témy
- Anotácia lingvistického korpusu : Andrej Hopko
- Identifikácia pomenovaných entít v slovenskom jazyku: Ediz Morochovič (študent na mobilite)
- Identifikácia pomenovaných entít v prirodzenom jazyku s pomocou neurónových sietí: Kyryl Kobzar
- Rekurentné neurónové siete pre jazykové modelovanie a generovanie prirodzeného jazyka: Stanislav Matsunych
- Jednoduchý chatbot v jazyku Python: Dymitro Ushatenko
- Automatická oprava preklepov: Peter Maľar
# Stretnutia
- 10.10 - Hopko, Matsunych, Kobzar
- 17.10 - Hopko, Pavlišin, Matsunych, Kobzar, Ushatenko (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
- 21.10. - Maľar
- 24.10 - Pracovná cesta
- 28.10 o 9:30 -
- 31.10 - Dekanské voľno
- 4.11. - Hopko
- 7.11 - Maľar, Ushatenko
- 14.11 - Odovzdanie draftu reportu
# Andrej Hopko
- Práca pomocou "Anaconda Prompt"
- Vyskúšať "python -m spacy" podľa tutoriálu na stránke
- Oboznámiť sa s https://prodi.gy/ (využíva spacy) a nainštalovať (python wheel)
28.10
- Na idoc.fei.tuke.sk nainštalovať [Minoconda](https://repo.anaconda.com/miniconda/)
- pozrite si "python virtualenv" a [prostredia conda](https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html)
Cieľ:
- Vedieť pripraviť textové dáta na anotáciu pomocou Prodigy (textové dáta sa použijú na učenie systému)
- V prvom semestri bude výstup:
- Oboznámiť sa "ako písať záverečnú pracu"
- nainštalovaný systém prodigy
- Vybratá dátová množina pripravená vo vhodnom formáte.
- Pripravená anotačná uloha
- Report o inštalácii Prodigy a príprave anotačnej úlohy na cca 3 strany použiteľný ako návod pre druhých - vysvetlite na čo sú potrebné anotácie a čo je crowdsourcing
- V reporte spomente aspoň 3 odborné články na tému "crowdsourcing"
- V druhom semestri - rešerš o príprave trénovacích dát a crowdsourcingu.
# Stanislav Matsunych
Pozrieť si
- https://medium.com/@shivambansal36/language-modelling-text-generation-using-lstms-deep-learning-for-nlp-ed36b224b275
- https://towardsdatascience.com/character-level-language-model-1439f5dd87fe
Prejsť si tutoriál http://karpathy.github.io/2015/05/21/rnn-effectiveness/
Cielom je:
Vytvoriť jazykový model slovenského jazyka na báze rekurentných neurónových sietí
- V prvom semestri bude výstup:
- jednoduchý program na vytvorenie LM a generovanie znakov z neho
- Vypracujte rešerš na tému "Rekurentné neurónové siete na tvorbu jazykových modelov " (LSTM, GRU) cca 10 strán
V druhom semestri
- dopracovanie práce
# Kyryl Kobzar
Cieľom je:
Vedieť použiť nástroj Spacy na natrénovanie modelu a rozpoznávanie pomenovaných entít v texte v (anglickom) jazyku
Zdroje dát
https://lindat.mff.cuni.cz/repository/xmlui/
https://lindat.mff.cuni.cz/repository/xmlui/discover?field=subject&filtertype=subject&filter_relational_operator=equals&filter=named+entity+recognition
Výstup do prvého semestra:
- Tutoriál na cca 3-4 strany ako natrénovať a použiť Spacy na rozpoznávanie pomenovaných entít
- Rešerš na tému cca 10 strán : "Rozpoznávanie pomenovaných entít" - "named entity recognition", vystetlíte, čo to je, aké metódy sa používajú, ako sa to vyhodnocuje.
V druhom semestri:
- natrénovanie vlastného modelu na vlastných dátach
- vyhodnotenie modelu
- dokončenie práce
# Dmytro Ushatenko
Cieľ:
Vytvorenie jednoduchého chatbota s použitím toolkitu RASA ktorý bude informovať o zvolenej téme,
napr. o predmetoch štúdia prvého ročníka programu PS na KEMT:
Pomôcka pre začínajúcich študentov:
- Čo mám robiť?
- Aké predmety budem študovať?
- Ako skončím predmet? (potrebujem zápočet a skúšku)
Úlohy na tento semester:
- Prejdite si tutoriál https://rasa.com/docs/rasa/user-guide/rasa-tutorial/
- Pripravte jednoduchý dialógový systém
- Pripravte "návod na použitie", kde zapíšete čo ste spravili v tutoriáli
- Vylepšite Vašu rešerš, dajte dôraz na citovanie zdrojov a na jazykovú stránku.
V druom semestri:
- pripravíte si celé demo
- dookončíte prácu
# Peter Maľar
Cieľ:
Vytvoriť jednoduchý systém na opravu preklepov na báze neurónových sietí
Úlohy na tento semester:
- Naštudovať si článok "Sequence to sequence spelling correction..."
- Nainštalovať a vyskúšať [fairseq](https://github.com/pytorch/fairseq)
- Prejsť si tutoriál na strojový preklad https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md
- Vytvorte (prejdite krátky tutoriál - zapisujte čo ste urobili)
- Skúsiť zopakovať experimenty s použitím systému
- Vytvorte rešerš na tému "sequence to sequence systémy", "encoder-decoder" neurónové siete (5 strán, min. 5 odborných článkov)
# Ediz Morochovič
Zadanie BP:
1. Vypracujte prehľad štatistických metód identifikácie pomenovaných entít v texte.
2. Podrobne opíšte zvolenú metódu identifikácie pomenovaných entít v texte
3. Zvoľte si vhodnú metodiku vyhodnotenia a na vhodnej testovacej množine navrhnite a vykonajte sadu experimentov.
4. Na základe výsledkov experimentov navrhnite možné zlepšenia.
Úlohy:
- Nainštalujte si prostredie Anaconda https://www.anaconda.com/
- Oboznámiť sa so zvoleným štatistickým systémom pre rozpoznávanie pomenovaných entít (https://www.nltk.org/), https://www.nltk.org/install.html, https://stanfordnlp.github.io/CoreNLP/, https://www.nltk.org/book/
- Zistite použitú štatistickú metódu a podrobne ju opíšte
- Vypracujte prehľad používaných štatistických metód (maximum entropy, conditional random fields, hidden markov models), min. 5 strán s min. 10 odkazmi na odborné články
- Navrhnite experimenty a vykonajte ich s rôznymi parametrami systému

View File

@ -1,2 +0,0 @@
# Záverečné práce

View File

@ -1 +0,0 @@
zzz