forked from KEMT/zpwiki
initial
This commit is contained in:
parent
5e065b59ff
commit
607b4c46c7
pages
01.chatbot
01.home
02.named-entity
02.typography
03.seq2seq
04.nlp
05.prodigy
20.zp
30.tim
39.bp19
40.bp20
README.mddefault.md
38
pages/01.chatbot/README.md
Normal file
38
pages/01.chatbot/README.md
Normal file
@ -0,0 +1,38 @@
|
|||||||
|
---
|
||||||
|
title: chatbot
|
||||||
|
---
|
||||||
|
|
||||||
|
# Chatbot
|
||||||
|
|
||||||
|
Ciele: Vytvorenie demonštračnej aplikácie pre interaktívnu komunikáciu s
|
||||||
|
automatom
|
||||||
|
|
||||||
|
## Zdroje
|
||||||
|
|
||||||
|
- <https:%%//%%chatbotslife.com/how-you-can-build-your-first-chatbot-using-rasa-in-under-15-minutes-ce557ea52f2f>
|
||||||
|
- <https:%%//%%medium.com/analytics-vidhya/building-a-simple-chatbot-in-python-using-nltk-7c8c8215ac6e>
|
||||||
|
|
||||||
|
### Prostriedky
|
||||||
|
|
||||||
|
- [RASA toolbox](https://rasa.com/)
|
||||||
|
- Slack(<https:%%//%%slack.com>) - ako rozhranie
|
||||||
|
|
||||||
|
## Riešitelia
|
||||||
|
|
||||||
|
- Dmytro Ushatenko (Daniel Hládek), 19/20
|
||||||
|
- Jozef Olekšák (Stanislav Ondáš) 18/19 Riadenie dialógu na báze
|
||||||
|
štatických metód
|
||||||
|
|
||||||
|
## Existujúce riešenia
|
||||||
|
|
||||||
|
- [KEMT Bot](https://kemt.fei.tuke.sk)
|
||||||
|
- <https:%%//%%jobothq.slack.com/>
|
||||||
|
|
||||||
|
## Riešiteľ 1
|
||||||
|
|
||||||
|
Zadanie:
|
||||||
|
|
||||||
|
1. Vypracujte úvod do problematiky systémov pre riadenie dialógu
|
||||||
|
2. Vypracujte prehľad používaných metód riadenia dialógu
|
||||||
|
3. Navrhnite a implementujte agenta pre zisťovanie informácií o katedre
|
||||||
|
KEM
|
55
pages/01.home/README.md
Normal file
55
pages/01.home/README.md
Normal file
@ -0,0 +1,55 @@
|
|||||||
|
# Záverečné práce na KEMT
|
||||||
|
Wiki stánka pre prezentáciu a spoluprácu na záverečných prácach.
|
||||||
|
|
||||||
|
## Ako sa zúčastním
|
||||||
|
|
||||||
|
Všetky stánky sú napísané vo formáte Markdown. Je možné ich editovať pomocou webového rozhrania alebo
|
||||||
|
pomocou Vášho obľúbeného textového editora a synchronizovať s Vašim počítačom.
|
||||||
|
|
||||||
|
## Kto to uvidí
|
||||||
|
|
||||||
|
Všetky stránky sú prístupné pre všetkých prihlásených používateľov.
|
||||||
|
|
||||||
|
## Čo tu nájdem
|
||||||
|
|
||||||
|
- informácie o vedúcich záverečných prác
|
||||||
|
- zadania záverečných prác
|
||||||
|
- návody ako vytvoriť záverečnú prácu
|
||||||
|
- články o zaujímavých témach
|
||||||
|
- predbežné výsledky
|
||||||
|
- referáty
|
||||||
|
- bakalárske práce
|
||||||
|
- diplomové práce
|
||||||
|
- odkazy na repozitáre so zdrojovým kódom
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
---
|
||||||
|
title: Záverečné práce a projekty
|
||||||
|
published: true
|
||||||
|
---
|
||||||
|
|
||||||
|
- Vedúci: Daniel Hládek
|
||||||
|
- odporúčaný čas konzultácie: štvrtok o 9:00
|
||||||
|
- Oblasť výskumu: Spracovanie prirodzeného jazyka
|
||||||
|
|
||||||
|
# Predmety
|
||||||
|
|
||||||
|
- [Bakalársky projekt 2019](./bp20)
|
||||||
|
- [Tímový projekt 2019](./tim)
|
||||||
|
- [Bakalárske práce 2018/2019](./bp19)
|
||||||
|
|
||||||
|
# Ako písať záverečnú prácu
|
||||||
|
|
||||||
|
- [Ako písať záverečnú prácu](http://akopisatprace.sk/wp-content/uploads/ako_pisat_zav_prace_final_skratene2_6.pdf)
|
||||||
|
- [Odovzdanie a šablóna](https://portal.lib.tuke.sk/etd/)
|
||||||
|
|
||||||
|
## Zadanie záverečnej práce
|
||||||
|
|
||||||
|
1. Definujte PROBLÉM
|
||||||
|
2. Vypracujte prehľad možných metód riešenia a vyberte vhodnú METÓDU
|
||||||
|
3. Vyberte metódu OHODNOTENIA, navrhnite a vykonajte EXPERIMENTY.
|
||||||
|
4. Vyhodnoťte experimenty a navrhnite možné zlepšenia
|
||||||
|
|
||||||
|
|
@ -1,42 +0,0 @@
|
|||||||
---
|
|
||||||
title: Home
|
|
||||||
body_classes: title-center title-h1h2
|
|
||||||
---
|
|
||||||
|
|
||||||
# Say Hello to Grav!
|
|
||||||
## installation successful...
|
|
||||||
|
|
||||||
Congratulations! You have installed the **Base Grav Package** that provides a **simple page** and the default **Quark** theme to get you started.
|
|
||||||
|
|
||||||
!! If you see a **404 Error** when you click `Typography` in the menu, please refer to the [troubleshooting guide](http://learn.getgrav.org/troubleshooting/page-not-found).
|
|
||||||
|
|
||||||
### Find out all about Grav
|
|
||||||
|
|
||||||
* Learn about **Grav** by checking out our dedicated [Learn Grav](http://learn.getgrav.org) site.
|
|
||||||
* Download **plugins**, **themes**, as well as other Grav **skeleton** packages from the [Grav Downloads](http://getgrav.org/downloads) page.
|
|
||||||
* Check out our [Grav Development Blog](http://getgrav.org/blog) to find out the latest goings on in the Grav-verse.
|
|
||||||
|
|
||||||
!!! If you want a more **full-featured** base install, you should check out [**Skeleton** packages available in the downloads](http://getgrav.org/downloads).
|
|
||||||
|
|
||||||
### Edit this Page
|
|
||||||
|
|
||||||
To edit this page, simply navigate to the folder you installed **Grav** into, and then browse to the `user/pages/01.home` folder and open the `default.md` file in your [editor of choice](http://learn.getgrav.org/basics/requirements). You will see the content of this page in [Markdown format](http://learn.getgrav.org/content/markdown).
|
|
||||||
|
|
||||||
### Create a New Page
|
|
||||||
|
|
||||||
Creating a new page is a simple affair in **Grav**. Simply follow these simple steps:
|
|
||||||
|
|
||||||
1. Navigate to your pages folder: `user/pages/` and create a new folder. In this example, we will use [explicit default ordering](http://learn.getgrav.org/content/content-pages) and call the folder `03.mypage`.
|
|
||||||
2. Launch your text editor and paste in the following sample code:
|
|
||||||
|
|
||||||
---
|
|
||||||
title: My New Page
|
|
||||||
---
|
|
||||||
# My New Page!
|
|
||||||
|
|
||||||
This is the body of **my new page** and I can easily use _Markdown_ syntax here.
|
|
||||||
|
|
||||||
3. Save this file in the `user/pages/03.mypage/` folder as `default.md`. This will tell **Grav** to render the page using the **default** template.
|
|
||||||
4. That is it! Reload your browser to see your new page in the menu.
|
|
||||||
|
|
||||||
! NOTE: The page will automatically show up in the Menu after the "Typography" menu item. If you wish to change the name that shows up in the Menu, simple add: `menu: My Page` between the dashes in the page content. This is called the YAML front matter, and it is where you configure page-specific options.
|
|
@ -1,9 +0,0 @@
|
|||||||
---
|
|
||||||
title: ''
|
|
||||||
media_order: ''
|
|
||||||
body_classes: ''
|
|
||||||
order_by: ''
|
|
||||||
order_manual: ''
|
|
||||||
---
|
|
||||||
|
|
||||||
# sdfadsfdsf
|
|
44
pages/02.named-entity/README.md
Normal file
44
pages/02.named-entity/README.md
Normal file
@ -0,0 +1,44 @@
|
|||||||
|
---
|
||||||
|
title: named-entity
|
||||||
|
---
|
||||||
|
|
||||||
|
# Named Entities
|
||||||
|
|
||||||
|
## Goals
|
||||||
|
|
||||||
|
- Be able to recognize unknown named entities
|
||||||
|
- Create a manually annotated training set from speech transcripts
|
||||||
|
- Propose an annotation schema
|
||||||
|
|
||||||
|
## Plan
|
||||||
|
|
||||||
|
- Convert speech transcripts into a training set
|
||||||
|
- Train and evaluate classifier
|
||||||
|
- Establish manual annotation
|
||||||
|
- Select unannotated data
|
||||||
|
|
||||||
|
### Data preparation
|
||||||
|
|
||||||
|
Input: Transcriber transcripts with inconsistent annotations
|
||||||
|
|
||||||
|
```
|
||||||
|
* First small letter: regular word
|
||||||
|
* Capital: named entity
|
||||||
|
* ''^^'': faoreign word
|
||||||
|
* ''@'': noise
|
||||||
|
* ''_'': multi word expression
|
||||||
|
* ''/'': pronuncation
|
||||||
|
```
|
||||||
|
|
||||||
|
Output: A file that can be read by `spacy convert`
|
||||||
|
|
||||||
|
## People
|
||||||
|
|
||||||
|
Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
|
||||||
|
|
||||||
|
## Tools
|
||||||
|
|
||||||
|
```
|
||||||
|
* Machine learning : https://spacy.io/usage/training
|
||||||
|
* Manual Annotation : https://prodi.gy/
|
||||||
|
```
|
@ -1,155 +0,0 @@
|
|||||||
---
|
|
||||||
title: Typography
|
|
||||||
---
|
|
||||||
|
|
||||||
! Details on the full capabilities of Spectre.css can be found in the [Official Spectre Documentation](https://picturepan2.github.io/spectre/elements.html)
|
|
||||||
|
|
||||||
The [Quark theme](https://github.com/getgrav/grav-theme-quark) is the new default theme for Grav built with [Spectre.css](https://picturepan2.github.io/spectre/) the lightweight, responsive and modern CSS framework. Spectre provides basic styles for typography, elements, and a responsive layout system that utilizes best practices and consistent language design.
|
|
||||||
|
|
||||||
### Headings
|
|
||||||
|
|
||||||
# H1 Heading `40px`
|
|
||||||
|
|
||||||
## H2 Heading `32px`
|
|
||||||
|
|
||||||
### H3 Heading `28px`
|
|
||||||
|
|
||||||
#### H4 Heading `24px`
|
|
||||||
|
|
||||||
##### H5 Heading `20px`
|
|
||||||
|
|
||||||
###### H6 Heading `16px`
|
|
||||||
|
|
||||||
```html
|
|
||||||
# H1 Heading
|
|
||||||
# H1 Heading `40px`</small>`
|
|
||||||
|
|
||||||
<span class="h1">H1 Heading</span>
|
|
||||||
```
|
|
||||||
|
|
||||||
### Paragraphs
|
|
||||||
|
|
||||||
Lorem ipsum dolor sit amet, consectetur [adipiscing elit. Praesent risus leo, dictum in vehicula sit amet](#), feugiat tempus tellus. Duis quis sodales risus. Etiam euismod ornare consequat.
|
|
||||||
|
|
||||||
Climb leg rub face on everything give attitude nap all day for under the bed. Chase mice attack feet but rub face on everything hopped up on goofballs.
|
|
||||||
|
|
||||||
### Markdown Semantic Text Elements
|
|
||||||
|
|
||||||
**Bold** `**Bold**`
|
|
||||||
|
|
||||||
_Italic_ `_Italic_`
|
|
||||||
|
|
||||||
~~Deleted~~ `~~Deleted~~`
|
|
||||||
|
|
||||||
`Inline Code` `` `Inline Code` ``
|
|
||||||
|
|
||||||
### HTML Semantic Text Elements
|
|
||||||
|
|
||||||
<abbr>I18N</abbr> `<abbr>`
|
|
||||||
|
|
||||||
<cite>Citation</cite> `<cite>`
|
|
||||||
|
|
||||||
<kbd>Ctrl + S</kbd> `<kbd>`
|
|
||||||
|
|
||||||
Text<sup>Superscripted</sup> `<sup>`
|
|
||||||
|
|
||||||
Text<sub>Subscripted</sub> `<sub>`
|
|
||||||
|
|
||||||
<u>Underlined</u> `<u>`
|
|
||||||
|
|
||||||
<mark>Highlighted</mark> `<mark>`
|
|
||||||
|
|
||||||
<time>20:14</time> `<time>`
|
|
||||||
|
|
||||||
<var>x = y + 2</var> `<var>`
|
|
||||||
|
|
||||||
### Blockquote
|
|
||||||
|
|
||||||
> The advance of technology is based on making it fit in so that you don't really even notice it,
|
|
||||||
> so it's part of everyday life.
|
|
||||||
>
|
|
||||||
> <cite>- Bill Gates</cite>
|
|
||||||
|
|
||||||
```markdown
|
|
||||||
> The advance of technology is based on making it fit in so that you don't really even notice it,
|
|
||||||
> so it's part of everyday life.
|
|
||||||
>
|
|
||||||
> <cite>- Bill Gates</cite>
|
|
||||||
```
|
|
||||||
|
|
||||||
### Unordered List
|
|
||||||
|
|
||||||
* list item 1
|
|
||||||
* list item 2
|
|
||||||
* list item 2.1
|
|
||||||
* list item 2.2
|
|
||||||
* list item 2.3
|
|
||||||
* list item 3
|
|
||||||
|
|
||||||
```markdown
|
|
||||||
* list item 1
|
|
||||||
* list item 2
|
|
||||||
* list item 2.1
|
|
||||||
* list item 2.2
|
|
||||||
* list item 2.3
|
|
||||||
* list item 3
|
|
||||||
```
|
|
||||||
|
|
||||||
### Ordered List
|
|
||||||
|
|
||||||
1. list item 1
|
|
||||||
1. list item 2
|
|
||||||
1. list item 2.1
|
|
||||||
1. list item 2.2
|
|
||||||
1. list item 2.3
|
|
||||||
1. list item 3
|
|
||||||
|
|
||||||
```markdown
|
|
||||||
1. list item 1
|
|
||||||
1. list item 2
|
|
||||||
1. list item 2.1
|
|
||||||
1. list item 2.2
|
|
||||||
1. list item 2.3
|
|
||||||
1. list item 3
|
|
||||||
```
|
|
||||||
|
|
||||||
### Table
|
|
||||||
|
|
||||||
| Name | Genre | Release date |
|
|
||||||
| :-------------------------- | :---------------------------: | -------------------: |
|
|
||||||
| The Shawshank Redemption | Crime, Drama | 14 October 1994 |
|
|
||||||
| The Godfather | Crime, Drama | 24 March 1972 |
|
|
||||||
| Schindler's List | Biography, Drama, History | 4 February 1994 |
|
|
||||||
| Se7en | Crime, Drama, Mystery | 22 September 1995 |
|
|
||||||
|
|
||||||
```markdown
|
|
||||||
| Name | Genre | Release date |
|
|
||||||
| :-------------------------- | :---------------------------: | -------------------: |
|
|
||||||
| The Shawshank Redemption | Crime, Drama | 14 October 1994 |
|
|
||||||
| The Godfather | Crime, Drama | 24 March 1972 |
|
|
||||||
| Schindler's List | Biography, Drama, History | 4 February 1994 |
|
|
||||||
| Se7en | Crime, Drama, Mystery | 22 September 1995 |
|
|
||||||
```
|
|
||||||
|
|
||||||
### Notices
|
|
||||||
|
|
||||||
The notices styles are actually provided by the `markdown-notices` plugin but are useful enough to include here:
|
|
||||||
|
|
||||||
! This is a warning notification
|
|
||||||
|
|
||||||
!! This is a error notification
|
|
||||||
|
|
||||||
!!! This is a default notification
|
|
||||||
|
|
||||||
!!!! This is a success notification
|
|
||||||
|
|
||||||
```markdown
|
|
||||||
! This is a warning notification
|
|
||||||
|
|
||||||
!! This is a error notification
|
|
||||||
|
|
||||||
!!! This is a default notification
|
|
||||||
|
|
||||||
!!!! This is a success notification
|
|
||||||
```
|
|
||||||
|
|
14
pages/03.seq2seq/README.md
Normal file
14
pages/03.seq2seq/README.md
Normal file
@ -0,0 +1,14 @@
|
|||||||
|
---
|
||||||
|
title: named-entity
|
||||||
|
---
|
||||||
|
# Sequence to sequence
|
||||||
|
|
||||||
|
Niektoré zaujímavé odkazy na tému sequence to sequence:
|
||||||
|
|
||||||
|
https://github.com/pytorch/fairseq
|
||||||
|
|
||||||
|
## Transformer
|
||||||
|
|
||||||
|
http://jalammar.github.io/illustrated-transformer/
|
||||||
|
|
||||||
|
https://arxiv.org/abs/1706.03762
|
22
pages/04.nlp/README.md
Normal file
22
pages/04.nlp/README.md
Normal file
@ -0,0 +1,22 @@
|
|||||||
|
---
|
||||||
|
title: Spracovanie prirodzeného jazyka
|
||||||
|
published: true
|
||||||
|
---
|
||||||
|
|
||||||
|
# Spracovanie prirodzeného jazyka
|
||||||
|
|
||||||
|
## Knihy
|
||||||
|
|
||||||
|
- Lane, Howard, Hopke: Natural language processing in action
|
||||||
|
|
||||||
|
## Knižnice Python
|
||||||
|
|
||||||
|
- Flair https://github.com/zalandoresearch/flair
|
||||||
|
- Spacy https://spacy.io/
|
||||||
|
|
||||||
|
## Word Embedding
|
||||||
|
|
||||||
|
- https://nlp.stanford.edu/projects/glove/
|
||||||
|
- https://fasttext.cc/
|
||||||
|
- https://radimrehurek.com/gensim/ (topic modelling)
|
||||||
|
-
|
30
pages/05.prodigy/README.md
Normal file
30
pages/05.prodigy/README.md
Normal file
@ -0,0 +1,30 @@
|
|||||||
|
---
|
||||||
|
title: Anotácia textových dát
|
||||||
|
published: true
|
||||||
|
---
|
||||||
|
|
||||||
|
# Anotácia textových dát
|
||||||
|
|
||||||
|
- Natrénovanie štatistického modelu pre spracovanie prirodzeného jazyka zo slovenských dát
|
||||||
|
- Manuálna anotácia slovenských dát pre výskyt pomenovaných entít
|
||||||
|
|
||||||
|
## Postup
|
||||||
|
|
||||||
|
- Definovanie anotačnej schémy
|
||||||
|
- Príprava dátovej množiny vhodnej na anotáciu
|
||||||
|
- Natrénovanie štatistického modelu Spacy
|
||||||
|
- Príprava anotačnej úlohy Prodigy
|
||||||
|
|
||||||
|
## Nástroje
|
||||||
|
|
||||||
|
- Python (príprava dát)
|
||||||
|
- Spacy (štatistický model) [Spacy](https://spacy.io/))
|
||||||
|
- [Prodigy](https://prodi.gy/) (anotácie)
|
||||||
|
|
||||||
|
## Riešitelia
|
||||||
|
|
||||||
|
- Andrej Hopko (BP)
|
||||||
|
- Lukáš Pokrývka (TP)
|
||||||
|
- Jakub Maruniak
|
||||||
|
- [Cesar Gutierez](../named-entity) (stáž leto 2019)
|
||||||
|
|
51
pages/20.zp/README.md
Normal file
51
pages/20.zp/README.md
Normal file
@ -0,0 +1,51 @@
|
|||||||
|
---
|
||||||
|
title: Záverečné práce a projekty
|
||||||
|
published: true
|
||||||
|
---
|
||||||
|
|
||||||
|
# Ako písať záverečnú prácu
|
||||||
|
|
||||||
|
- [Ako písať záverečnú prácu](http://akopisatprace.sk/wp-content/uploads/ako_pisat_zav_prace_final_skratene2_6.pdf)
|
||||||
|
- [Odovzdanie a šablóna](https://portal.lib.tuke.sk/etd/)
|
||||||
|
|
||||||
|
Predstavte čitateľovi problém a možné spôsoby riešenia. Z možných spôsobov vyberte jeden a odôvodnite že prečo.
|
||||||
|
V praktickej časti opíšte vykonané experimenty a výsledky uch vyhodnotenia tak aby ich bolo možné opakovať.
|
||||||
|
V závere identifikujte slabé miesta a navrhnite zlepšenia.
|
||||||
|
|
||||||
|
# Využívajte indexy odbornej literatúry
|
||||||
|
|
||||||
|
- https://scholar.google.sk/
|
||||||
|
- https://www.scopus.com/ (prístupné iba zo školy)
|
||||||
|
|
||||||
|
# Používajte softvér na manažment citácií
|
||||||
|
|
||||||
|
Keď prečitate článok, uchovajte si bibliografický záznam pre ľahšie citovanie
|
||||||
|
|
||||||
|
- [Mendeley](https://www.mendeley.com/)
|
||||||
|
- [JabRef](https://www.jabref.org/)
|
||||||
|
|
||||||
|
# Ako citovať
|
||||||
|
|
||||||
|
- https://ippr.sk/c/204-citacie-parafrazy-bibliograficke-odkazy-iso-690
|
||||||
|
- Pri konkrétnych tvrdeniach sa odvolajte na zdroj odbornej literatúry.
|
||||||
|
- Preferujte aktuálne a kvalitné zdroje (nie rôzne blogy, manuály alebo tutoriály).
|
||||||
|
- Citácie by mali byť krátke.
|
||||||
|
- Doslovné citácie zvýraznite oddelené od ostatného textu.
|
||||||
|
- Sú povolené aj kratšie parafrázy.
|
||||||
|
- Počet referencia by mal byť min. 1 na každé dve strany.
|
||||||
|
|
||||||
|
# Používajte správne slovenské termíny
|
||||||
|
|
||||||
|
Ak ste si nie istí prekladom pojmu z angličtiny , pozrite si slovenskú literatúru na danú tému.
|
||||||
|
|
||||||
|
Konzultujte existujúce odborné slovníky napr. z:
|
||||||
|
|
||||||
|
- https://terminologickyportal.sk/
|
||||||
|
|
||||||
|
## Zadanie záverečnej práce
|
||||||
|
|
||||||
|
1. Definujte PROBLÉM
|
||||||
|
2. Vypracujte prehľad možných metód riešenia a vyberte vhodnú METÓDU
|
||||||
|
3. Vyberte metódu OHODNOTENIA, navrhnite a vykonajte EXPERIMENTY.
|
||||||
|
4. Vyhodnoťte experimenty a navrhnite možné zlepšenia
|
||||||
|
|
119
pages/30.tim/README.md
Normal file
119
pages/30.tim/README.md
Normal file
@ -0,0 +1,119 @@
|
|||||||
|
---
|
||||||
|
title: Spracovanie prirodzeného jazyka a jazyk Python
|
||||||
|
published: true
|
||||||
|
---
|
||||||
|
|
||||||
|
# Tímový projekt 2019
|
||||||
|
|
||||||
|
Vedúci:
|
||||||
|
|
||||||
|
[Daniel Hládek](../) - odporúčaný čas konzultácie: štvrtok o 9:00
|
||||||
|
|
||||||
|
[Pokyny KEMT](http://kemt.fei.tuke.sk/studium/diplomova-praca/organizacne-pokyny-k-predmetu-timovy-projekt-v-st-programe-pocitacove-siete-2019-2020/)
|
||||||
|
|
||||||
|
Ciele:
|
||||||
|
|
||||||
|
- oboznámiť sa so základmi spracovania prirodzeného jazyka
|
||||||
|
- oboznámiť sa s jazykom Python
|
||||||
|
- špecifikovať zadanie diplomovej práce
|
||||||
|
- naučiť sa pracovať s [odbornou literatúrou](../zp)
|
||||||
|
- oboznámiť kolegov s obsahom vykonanej práce
|
||||||
|
|
||||||
|
Výstupy:
|
||||||
|
|
||||||
|
Rozsah výstupu min. 3 A4 kvalitného textu
|
||||||
|
|
||||||
|
- Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň)
|
||||||
|
- vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov)
|
||||||
|
- odovzdanie cez [MOOODLE](https://moodle.tuke.sk/moodle35/course/view.php?id=874) kľúč je TP2019
|
||||||
|
|
||||||
|
|
||||||
|
Odporúčané nástroje:
|
||||||
|
|
||||||
|
- Prostredie [Anaconda](https://www.anaconda.com/distribution/)
|
||||||
|
- Chatbot [RASA](https://rasa.com/)
|
||||||
|
- Knižnica [Spacy](https://spacy.io/)
|
||||||
|
- Anotácie [Prodigy](https://prodi.gy/)
|
||||||
|
- Získavanie informácií [Elasticsearch](https://www.elastic.co/products/elasticsearch)
|
||||||
|
- seq2seq Neurónové siete [Fairseq](https://github.com/pytorch/fairseq)
|
||||||
|
- webové aplikácie a REST [Flask](https://www.fullstackpython.com/flask.html)
|
||||||
|
|
||||||
|
Odporúčané témy:
|
||||||
|
|
||||||
|
- [identifikácia pomenovaných entít](./named-entity) (named entity recognition)
|
||||||
|
- [dialógové systémy](./chatbot) (chatbot)
|
||||||
|
- strojový preklad (machine translation)
|
||||||
|
- oprava preklepov (spelling error correction, diacritics restoration)
|
||||||
|
- získavanie informácií (vyhľadávanie v texte)
|
||||||
|
- identifikácia viacslovných výrazov (chunking)
|
||||||
|
- anotácia textových dát
|
||||||
|
|
||||||
|
Informácie a literatúra:
|
||||||
|
|
||||||
|
- [Spacy Tutoriál](https://nlpforhackers.io/complete-guide-to-spacy/)
|
||||||
|
- [Dive into Python](https://diveintopython3.problemsolving.io/) [(česky)](http://diveintopython3.py.cz/index.html)
|
||||||
|
- [Natural Language Processing in Action](https://www.manning.com/books/natural-language-processing-in-action) [(git)](https://github.com/totalgood/nlpia)
|
||||||
|
- [Python Data Science Handbook](https://github.com/jakevdp/PythonDataScienceHandbook)
|
||||||
|
- [Speech and Language Processing 2rd edition](https://github.com/rain1024/slp2-pdf)
|
||||||
|
- [Speech and Language Processing 3rd edition](https://web.stanford.edu/~jurafsky/slp3/)
|
||||||
|
|
||||||
|
Postup:
|
||||||
|
|
||||||
|
- Nainštaluj si Anacondu
|
||||||
|
- Prečítaj si materiály
|
||||||
|
- Vyber si zaujímavú úlohu a nástroj
|
||||||
|
- Vyskúšaj nástroj
|
||||||
|
- Napíš správu o riešení úlohy
|
||||||
|
|
||||||
|
Tím 2019:
|
||||||
|
|
||||||
|
- Lukáš Pokrývka (flask demo, named entity)
|
||||||
|
- Dominik Nagy (spelling correction, fairseq)
|
||||||
|
- Maroš Harahus (part-of-speech tagging)
|
||||||
|
- Ján Holp (získavanie informácií)
|
||||||
|
- Dárius Lindvai (punctuation restoration, [tutorial](https://medium.com/@praneethbedapudi/deepcorrection2-automatic-punctuation-restoration-ac4a837d92d9), pytorch, LSTM tutorial)
|
||||||
|
- Jakub Maruniak (prodigy, vytvorenie korpusu, [named-entity](../prodigy),
|
||||||
|
|
||||||
|
Dátumy stretnutí:
|
||||||
|
|
||||||
|
- 10.10 - Harahus, Holp
|
||||||
|
- 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému)
|
||||||
|
- 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
|
||||||
|
- 24.10 - Pracovná cesta
|
||||||
|
- 28.10 o 9:00, Holp, Harahus
|
||||||
|
- 31.10 - Dekanské voľno
|
||||||
|
- 4.11 - Maruniak
|
||||||
|
- 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus
|
||||||
|
- 14.11 - Lindvai, Harahus, Holp
|
||||||
|
|
||||||
|
Maroš Harahus
|
||||||
|
|
||||||
|
- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).
|
||||||
|
- Návrh na zadanie: Doplnenie podpory slovenského jazyka do nlp frameworku (spacy alebo flair)
|
||||||
|
|
||||||
|
Dárius Lindvai
|
||||||
|
|
||||||
|
- Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
|
||||||
|
- krátky program a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne [ako](https://pytorch.org/tutorials/beginner/nlp/sequence_models_tutorial.html).
|
||||||
|
- [zaujimavy blog](http://jalammar.github.io/illustrated-transformer/)
|
||||||
|
|
||||||
|
Ján Holp
|
||||||
|
|
||||||
|
- Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
|
||||||
|
- citujte 10 najvýznamnejších bibliografických zdrojov
|
||||||
|
|
||||||
|
Jakub Maruniak
|
||||||
|
|
||||||
|
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
|
||||||
|
- citujte min. 10 najvýznamnejších bibliografických zdrojov
|
||||||
|
|
||||||
|
Dominik Nagy:
|
||||||
|
|
||||||
|
- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
|
||||||
|
- citujte min. 10 najvýznamnejších bibliografických zdrojov
|
||||||
|
|
||||||
|
Lukáš Pokrývka:
|
||||||
|
|
||||||
|
- min. 4 strany rešerš na tému: "Paralelné spracovanie prirodzeného jazyka" alebo "Paralelné trénovanie sémantických modelov prorodzeného jazyka" (word2vec, word embeddings, GloVe, fastText)
|
||||||
|
- citujte min. 10 najvýznamnejších bibliografických zdrojov
|
||||||
|
|
9
pages/39.bp19/README.md
Normal file
9
pages/39.bp19/README.md
Normal file
@ -0,0 +1,9 @@
|
|||||||
|
---
|
||||||
|
title: Bakalárske práce 2018/2019
|
||||||
|
published: true
|
||||||
|
---
|
||||||
|
|
||||||
|
- Vyhľadávač na slovenskom internete: [Ján Holp](http://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1&seo=CRZP-detail-kniha)
|
||||||
|
- Identifikácia hraníc viet a dopĺňanie interpunkčných znamienok: [Dárius Lindvai](http://opac.crzp.sk/?fn=detailBiblioForm&sid=2D0B46080A5AC858AA11B21AE978&seo=CRZP-detail-kniha)
|
||||||
|
- Patrik Pavlišin TBD
|
||||||
|
|
BIN
pages/40.bp20/.default.md.swp
Normal file
BIN
pages/40.bp20/.default.md.swp
Normal file
Binary file not shown.
174
pages/40.bp20/README.md
Normal file
174
pages/40.bp20/README.md
Normal file
@ -0,0 +1,174 @@
|
|||||||
|
---
|
||||||
|
title: Bakalársky projekt 2019/2020
|
||||||
|
published: true
|
||||||
|
---
|
||||||
|
|
||||||
|
# Bakalársky projekt 2019/2020
|
||||||
|
|
||||||
|
- Vedúci: Daniel Hládek
|
||||||
|
- odporúčaný čas konzultácie: štvrtok o 9:00
|
||||||
|
- Oblasť výskumu: Spracovanie prirodzeného jazyka
|
||||||
|
|
||||||
|
# Ciele
|
||||||
|
|
||||||
|
- oboznámiť sa so základmi spracovania prirodzeného jazyka
|
||||||
|
- naučiť sa pracovať s [odbornou literatúrou](../zp)
|
||||||
|
|
||||||
|
# Výstupy
|
||||||
|
|
||||||
|
- článok na vybranú tému
|
||||||
|
- praktická aplikácia (demo, krátky program)
|
||||||
|
- [Odovzdanie cez Moodle](https://moodle.tuke.sk/moodle35/course/view.php?id=872&noprocess) heslo je BP2019
|
||||||
|
|
||||||
|
# Témy
|
||||||
|
|
||||||
|
- Anotácia lingvistického korpusu : Andrej Hopko
|
||||||
|
- Identifikácia pomenovaných entít v slovenskom jazyku: Ediz Morochovič (študent na mobilite)
|
||||||
|
- Identifikácia pomenovaných entít v prirodzenom jazyku s pomocou neurónových sietí: Kyryl Kobzar
|
||||||
|
- Rekurentné neurónové siete pre jazykové modelovanie a generovanie prirodzeného jazyka: Stanislav Matsunych
|
||||||
|
- Jednoduchý chatbot v jazyku Python: Dymitro Ushatenko
|
||||||
|
- Automatická oprava preklepov: Peter Maľar
|
||||||
|
|
||||||
|
# Stretnutia
|
||||||
|
|
||||||
|
- 10.10 - Hopko, Matsunych, Kobzar
|
||||||
|
- 17.10 - Hopko, Pavlišin, Matsunych, Kobzar, Ushatenko (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
|
||||||
|
- 21.10. - Maľar
|
||||||
|
- 24.10 - Pracovná cesta
|
||||||
|
- 28.10 o 9:30 -
|
||||||
|
- 31.10 - Dekanské voľno
|
||||||
|
- 4.11. - Hopko
|
||||||
|
- 7.11 - Maľar, Ushatenko
|
||||||
|
- 14.11 - Odovzdanie draftu reportu
|
||||||
|
|
||||||
|
# Andrej Hopko
|
||||||
|
|
||||||
|
- Práca pomocou "Anaconda Prompt"
|
||||||
|
- Vyskúšať "python -m spacy" podľa tutoriálu na stránke
|
||||||
|
- Oboznámiť sa s https://prodi.gy/ (využíva spacy) a nainštalovať (python wheel)
|
||||||
|
|
||||||
|
28.10
|
||||||
|
|
||||||
|
- Na idoc.fei.tuke.sk nainštalovať [Minoconda](https://repo.anaconda.com/miniconda/)
|
||||||
|
- pozrite si "python virtualenv" a [prostredia conda](https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html)
|
||||||
|
|
||||||
|
Cieľ:
|
||||||
|
|
||||||
|
- Vedieť pripraviť textové dáta na anotáciu pomocou Prodigy (textové dáta sa použijú na učenie systému)
|
||||||
|
- V prvom semestri bude výstup:
|
||||||
|
- Oboznámiť sa "ako písať záverečnú pracu"
|
||||||
|
- nainštalovaný systém prodigy
|
||||||
|
- Vybratá dátová množina pripravená vo vhodnom formáte.
|
||||||
|
- Pripravená anotačná uloha
|
||||||
|
- Report o inštalácii Prodigy a príprave anotačnej úlohy na cca 3 strany použiteľný ako návod pre druhých - vysvetlite na čo sú potrebné anotácie a čo je crowdsourcing
|
||||||
|
- V reporte spomente aspoň 3 odborné články na tému "crowdsourcing"
|
||||||
|
- V druhom semestri - rešerš o príprave trénovacích dát a crowdsourcingu.
|
||||||
|
|
||||||
|
# Stanislav Matsunych
|
||||||
|
|
||||||
|
Pozrieť si
|
||||||
|
|
||||||
|
- https://medium.com/@shivambansal36/language-modelling-text-generation-using-lstms-deep-learning-for-nlp-ed36b224b275
|
||||||
|
- https://towardsdatascience.com/character-level-language-model-1439f5dd87fe
|
||||||
|
|
||||||
|
Prejsť si tutoriál http://karpathy.github.io/2015/05/21/rnn-effectiveness/
|
||||||
|
|
||||||
|
Cielom je:
|
||||||
|
|
||||||
|
Vytvoriť jazykový model slovenského jazyka na báze rekurentných neurónových sietí
|
||||||
|
|
||||||
|
- V prvom semestri bude výstup:
|
||||||
|
- jednoduchý program na vytvorenie LM a generovanie znakov z neho
|
||||||
|
|
||||||
|
- Vypracujte rešerš na tému "Rekurentné neurónové siete na tvorbu jazykových modelov " (LSTM, GRU) cca 10 strán
|
||||||
|
|
||||||
|
V druhom semestri
|
||||||
|
|
||||||
|
- dopracovanie práce
|
||||||
|
|
||||||
|
|
||||||
|
# Kyryl Kobzar
|
||||||
|
|
||||||
|
Cieľom je:
|
||||||
|
|
||||||
|
Vedieť použiť nástroj Spacy na natrénovanie modelu a rozpoznávanie pomenovaných entít v texte v (anglickom) jazyku
|
||||||
|
|
||||||
|
Zdroje dát
|
||||||
|
|
||||||
|
https://lindat.mff.cuni.cz/repository/xmlui/
|
||||||
|
|
||||||
|
https://lindat.mff.cuni.cz/repository/xmlui/discover?field=subject&filtertype=subject&filter_relational_operator=equals&filter=named+entity+recognition
|
||||||
|
|
||||||
|
Výstup do prvého semestra:
|
||||||
|
|
||||||
|
- Tutoriál na cca 3-4 strany ako natrénovať a použiť Spacy na rozpoznávanie pomenovaných entít
|
||||||
|
- Rešerš na tému cca 10 strán : "Rozpoznávanie pomenovaných entít" - "named entity recognition", vystetlíte, čo to je, aké metódy sa používajú, ako sa to vyhodnocuje.
|
||||||
|
|
||||||
|
V druhom semestri:
|
||||||
|
|
||||||
|
- natrénovanie vlastného modelu na vlastných dátach
|
||||||
|
- vyhodnotenie modelu
|
||||||
|
- dokončenie práce
|
||||||
|
|
||||||
|
|
||||||
|
# Dmytro Ushatenko
|
||||||
|
|
||||||
|
Cieľ:
|
||||||
|
|
||||||
|
Vytvorenie jednoduchého chatbota s použitím toolkitu RASA ktorý bude informovať o zvolenej téme,
|
||||||
|
napr. o predmetoch štúdia prvého ročníka programu PS na KEMT:
|
||||||
|
|
||||||
|
Pomôcka pre začínajúcich študentov:
|
||||||
|
|
||||||
|
- Čo mám robiť?
|
||||||
|
- Aké predmety budem študovať?
|
||||||
|
- Ako skončím predmet? (potrebujem zápočet a skúšku)
|
||||||
|
|
||||||
|
|
||||||
|
Úlohy na tento semester:
|
||||||
|
|
||||||
|
- Prejdite si tutoriál https://rasa.com/docs/rasa/user-guide/rasa-tutorial/
|
||||||
|
- Pripravte jednoduchý dialógový systém
|
||||||
|
- Pripravte "návod na použitie", kde zapíšete čo ste spravili v tutoriáli
|
||||||
|
- Vylepšite Vašu rešerš, dajte dôraz na citovanie zdrojov a na jazykovú stránku.
|
||||||
|
|
||||||
|
|
||||||
|
V druom semestri:
|
||||||
|
|
||||||
|
- pripravíte si celé demo
|
||||||
|
- dookončíte prácu
|
||||||
|
|
||||||
|
# Peter Maľar
|
||||||
|
|
||||||
|
|
||||||
|
Cieľ:
|
||||||
|
|
||||||
|
Vytvoriť jednoduchý systém na opravu preklepov na báze neurónových sietí
|
||||||
|
|
||||||
|
Úlohy na tento semester:
|
||||||
|
|
||||||
|
- Naštudovať si článok "Sequence to sequence spelling correction..."
|
||||||
|
- Nainštalovať a vyskúšať [fairseq](https://github.com/pytorch/fairseq)
|
||||||
|
- Prejsť si tutoriál na strojový preklad https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md
|
||||||
|
- Vytvorte (prejdite krátky tutoriál - zapisujte čo ste urobili)
|
||||||
|
- Skúsiť zopakovať experimenty s použitím systému
|
||||||
|
- Vytvorte rešerš na tému "sequence to sequence systémy", "encoder-decoder" neurónové siete (5 strán, min. 5 odborných článkov)
|
||||||
|
|
||||||
|
# Ediz Morochovič
|
||||||
|
|
||||||
|
Zadanie BP:
|
||||||
|
|
||||||
|
1. Vypracujte prehľad štatistických metód identifikácie pomenovaných entít v texte.
|
||||||
|
2. Podrobne opíšte zvolenú metódu identifikácie pomenovaných entít v texte
|
||||||
|
3. Zvoľte si vhodnú metodiku vyhodnotenia a na vhodnej testovacej množine navrhnite a vykonajte sadu experimentov.
|
||||||
|
4. Na základe výsledkov experimentov navrhnite možné zlepšenia.
|
||||||
|
|
||||||
|
Úlohy:
|
||||||
|
|
||||||
|
- Nainštalujte si prostredie Anaconda https://www.anaconda.com/
|
||||||
|
- Oboznámiť sa so zvoleným štatistickým systémom pre rozpoznávanie pomenovaných entít (https://www.nltk.org/), https://www.nltk.org/install.html, https://stanfordnlp.github.io/CoreNLP/, https://www.nltk.org/book/
|
||||||
|
- Zistite použitú štatistickú metódu a podrobne ju opíšte
|
||||||
|
- Vypracujte prehľad používaných štatistických metód (maximum entropy, conditional random fields, hidden markov models), min. 5 strán s min. 10 odkazmi na odborné články
|
||||||
|
- Navrhnite experimenty a vykonajte ich s rôznymi parametrami systému
|
||||||
|
|
||||||
|
|
@ -1,2 +0,0 @@
|
|||||||
# Záverečné práce
|
|
||||||
|
|
@ -1 +0,0 @@
|
|||||||
zzz
|
|
Loading…
Reference in New Issue
Block a user