initial
This commit is contained in:
parent
5e065b59ff
commit
607b4c46c7
38
pages/01.chatbot/README.md
Normal file
38
pages/01.chatbot/README.md
Normal file
@ -0,0 +1,38 @@
|
||||
---
|
||||
title: chatbot
|
||||
---
|
||||
|
||||
# Chatbot
|
||||
|
||||
Ciele: Vytvorenie demonštračnej aplikácie pre interaktívnu komunikáciu s
|
||||
automatom
|
||||
|
||||
## Zdroje
|
||||
|
||||
- <https:%%//%%chatbotslife.com/how-you-can-build-your-first-chatbot-using-rasa-in-under-15-minutes-ce557ea52f2f>
|
||||
- <https:%%//%%medium.com/analytics-vidhya/building-a-simple-chatbot-in-python-using-nltk-7c8c8215ac6e>
|
||||
|
||||
### Prostriedky
|
||||
|
||||
- [RASA toolbox](https://rasa.com/)
|
||||
- Slack(<https:%%//%%slack.com>) - ako rozhranie
|
||||
|
||||
## Riešitelia
|
||||
|
||||
- Dmytro Ushatenko (Daniel Hládek), 19/20
|
||||
- Jozef Olekšák (Stanislav Ondáš) 18/19 Riadenie dialógu na báze
|
||||
štatických metód
|
||||
|
||||
## Existujúce riešenia
|
||||
|
||||
- [KEMT Bot](https://kemt.fei.tuke.sk)
|
||||
- <https:%%//%%jobothq.slack.com/>
|
||||
|
||||
## Riešiteľ 1
|
||||
|
||||
Zadanie:
|
||||
|
||||
1. Vypracujte úvod do problematiky systémov pre riadenie dialógu
|
||||
2. Vypracujte prehľad používaných metód riadenia dialógu
|
||||
3. Navrhnite a implementujte agenta pre zisťovanie informácií o katedre
|
||||
KEM
|
55
pages/01.home/README.md
Normal file
55
pages/01.home/README.md
Normal file
@ -0,0 +1,55 @@
|
||||
# Záverečné práce na KEMT
|
||||
Wiki stánka pre prezentáciu a spoluprácu na záverečných prácach.
|
||||
|
||||
## Ako sa zúčastním
|
||||
|
||||
Všetky stánky sú napísané vo formáte Markdown. Je možné ich editovať pomocou webového rozhrania alebo
|
||||
pomocou Vášho obľúbeného textového editora a synchronizovať s Vašim počítačom.
|
||||
|
||||
## Kto to uvidí
|
||||
|
||||
Všetky stránky sú prístupné pre všetkých prihlásených používateľov.
|
||||
|
||||
## Čo tu nájdem
|
||||
|
||||
- informácie o vedúcich záverečných prác
|
||||
- zadania záverečných prác
|
||||
- návody ako vytvoriť záverečnú prácu
|
||||
- články o zaujímavých témach
|
||||
- predbežné výsledky
|
||||
- referáty
|
||||
- bakalárske práce
|
||||
- diplomové práce
|
||||
- odkazy na repozitáre so zdrojovým kódom
|
||||
|
||||
|
||||
|
||||
|
||||
---
|
||||
title: Záverečné práce a projekty
|
||||
published: true
|
||||
---
|
||||
|
||||
- Vedúci: Daniel Hládek
|
||||
- odporúčaný čas konzultácie: štvrtok o 9:00
|
||||
- Oblasť výskumu: Spracovanie prirodzeného jazyka
|
||||
|
||||
# Predmety
|
||||
|
||||
- [Bakalársky projekt 2019](./bp20)
|
||||
- [Tímový projekt 2019](./tim)
|
||||
- [Bakalárske práce 2018/2019](./bp19)
|
||||
|
||||
# Ako písať záverečnú prácu
|
||||
|
||||
- [Ako písať záverečnú prácu](http://akopisatprace.sk/wp-content/uploads/ako_pisat_zav_prace_final_skratene2_6.pdf)
|
||||
- [Odovzdanie a šablóna](https://portal.lib.tuke.sk/etd/)
|
||||
|
||||
## Zadanie záverečnej práce
|
||||
|
||||
1. Definujte PROBLÉM
|
||||
2. Vypracujte prehľad možných metód riešenia a vyberte vhodnú METÓDU
|
||||
3. Vyberte metódu OHODNOTENIA, navrhnite a vykonajte EXPERIMENTY.
|
||||
4. Vyhodnoťte experimenty a navrhnite možné zlepšenia
|
||||
|
||||
|
@ -1,42 +0,0 @@
|
||||
---
|
||||
title: Home
|
||||
body_classes: title-center title-h1h2
|
||||
---
|
||||
|
||||
# Say Hello to Grav!
|
||||
## installation successful...
|
||||
|
||||
Congratulations! You have installed the **Base Grav Package** that provides a **simple page** and the default **Quark** theme to get you started.
|
||||
|
||||
!! If you see a **404 Error** when you click `Typography` in the menu, please refer to the [troubleshooting guide](http://learn.getgrav.org/troubleshooting/page-not-found).
|
||||
|
||||
### Find out all about Grav
|
||||
|
||||
* Learn about **Grav** by checking out our dedicated [Learn Grav](http://learn.getgrav.org) site.
|
||||
* Download **plugins**, **themes**, as well as other Grav **skeleton** packages from the [Grav Downloads](http://getgrav.org/downloads) page.
|
||||
* Check out our [Grav Development Blog](http://getgrav.org/blog) to find out the latest goings on in the Grav-verse.
|
||||
|
||||
!!! If you want a more **full-featured** base install, you should check out [**Skeleton** packages available in the downloads](http://getgrav.org/downloads).
|
||||
|
||||
### Edit this Page
|
||||
|
||||
To edit this page, simply navigate to the folder you installed **Grav** into, and then browse to the `user/pages/01.home` folder and open the `default.md` file in your [editor of choice](http://learn.getgrav.org/basics/requirements). You will see the content of this page in [Markdown format](http://learn.getgrav.org/content/markdown).
|
||||
|
||||
### Create a New Page
|
||||
|
||||
Creating a new page is a simple affair in **Grav**. Simply follow these simple steps:
|
||||
|
||||
1. Navigate to your pages folder: `user/pages/` and create a new folder. In this example, we will use [explicit default ordering](http://learn.getgrav.org/content/content-pages) and call the folder `03.mypage`.
|
||||
2. Launch your text editor and paste in the following sample code:
|
||||
|
||||
---
|
||||
title: My New Page
|
||||
---
|
||||
# My New Page!
|
||||
|
||||
This is the body of **my new page** and I can easily use _Markdown_ syntax here.
|
||||
|
||||
3. Save this file in the `user/pages/03.mypage/` folder as `default.md`. This will tell **Grav** to render the page using the **default** template.
|
||||
4. That is it! Reload your browser to see your new page in the menu.
|
||||
|
||||
! NOTE: The page will automatically show up in the Menu after the "Typography" menu item. If you wish to change the name that shows up in the Menu, simple add: `menu: My Page` between the dashes in the page content. This is called the YAML front matter, and it is where you configure page-specific options.
|
@ -1,9 +0,0 @@
|
||||
---
|
||||
title: ''
|
||||
media_order: ''
|
||||
body_classes: ''
|
||||
order_by: ''
|
||||
order_manual: ''
|
||||
---
|
||||
|
||||
# sdfadsfdsf
|
44
pages/02.named-entity/README.md
Normal file
44
pages/02.named-entity/README.md
Normal file
@ -0,0 +1,44 @@
|
||||
---
|
||||
title: named-entity
|
||||
---
|
||||
|
||||
# Named Entities
|
||||
|
||||
## Goals
|
||||
|
||||
- Be able to recognize unknown named entities
|
||||
- Create a manually annotated training set from speech transcripts
|
||||
- Propose an annotation schema
|
||||
|
||||
## Plan
|
||||
|
||||
- Convert speech transcripts into a training set
|
||||
- Train and evaluate classifier
|
||||
- Establish manual annotation
|
||||
- Select unannotated data
|
||||
|
||||
### Data preparation
|
||||
|
||||
Input: Transcriber transcripts with inconsistent annotations
|
||||
|
||||
```
|
||||
* First small letter: regular word
|
||||
* Capital: named entity
|
||||
* ''^^'': faoreign word
|
||||
* ''@'': noise
|
||||
* ''_'': multi word expression
|
||||
* ''/'': pronuncation
|
||||
```
|
||||
|
||||
Output: A file that can be read by `spacy convert`
|
||||
|
||||
## People
|
||||
|
||||
Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
|
||||
|
||||
## Tools
|
||||
|
||||
```
|
||||
* Machine learning : https://spacy.io/usage/training
|
||||
* Manual Annotation : https://prodi.gy/
|
||||
```
|
@ -1,155 +0,0 @@
|
||||
---
|
||||
title: Typography
|
||||
---
|
||||
|
||||
! Details on the full capabilities of Spectre.css can be found in the [Official Spectre Documentation](https://picturepan2.github.io/spectre/elements.html)
|
||||
|
||||
The [Quark theme](https://github.com/getgrav/grav-theme-quark) is the new default theme for Grav built with [Spectre.css](https://picturepan2.github.io/spectre/) the lightweight, responsive and modern CSS framework. Spectre provides basic styles for typography, elements, and a responsive layout system that utilizes best practices and consistent language design.
|
||||
|
||||
### Headings
|
||||
|
||||
# H1 Heading `40px`
|
||||
|
||||
## H2 Heading `32px`
|
||||
|
||||
### H3 Heading `28px`
|
||||
|
||||
#### H4 Heading `24px`
|
||||
|
||||
##### H5 Heading `20px`
|
||||
|
||||
###### H6 Heading `16px`
|
||||
|
||||
```html
|
||||
# H1 Heading
|
||||
# H1 Heading `40px`</small>`
|
||||
|
||||
<span class="h1">H1 Heading</span>
|
||||
```
|
||||
|
||||
### Paragraphs
|
||||
|
||||
Lorem ipsum dolor sit amet, consectetur [adipiscing elit. Praesent risus leo, dictum in vehicula sit amet](#), feugiat tempus tellus. Duis quis sodales risus. Etiam euismod ornare consequat.
|
||||
|
||||
Climb leg rub face on everything give attitude nap all day for under the bed. Chase mice attack feet but rub face on everything hopped up on goofballs.
|
||||
|
||||
### Markdown Semantic Text Elements
|
||||
|
||||
**Bold** `**Bold**`
|
||||
|
||||
_Italic_ `_Italic_`
|
||||
|
||||
~~Deleted~~ `~~Deleted~~`
|
||||
|
||||
`Inline Code` `` `Inline Code` ``
|
||||
|
||||
### HTML Semantic Text Elements
|
||||
|
||||
<abbr>I18N</abbr> `<abbr>`
|
||||
|
||||
<cite>Citation</cite> `<cite>`
|
||||
|
||||
<kbd>Ctrl + S</kbd> `<kbd>`
|
||||
|
||||
Text<sup>Superscripted</sup> `<sup>`
|
||||
|
||||
Text<sub>Subscripted</sub> `<sub>`
|
||||
|
||||
<u>Underlined</u> `<u>`
|
||||
|
||||
<mark>Highlighted</mark> `<mark>`
|
||||
|
||||
<time>20:14</time> `<time>`
|
||||
|
||||
<var>x = y + 2</var> `<var>`
|
||||
|
||||
### Blockquote
|
||||
|
||||
> The advance of technology is based on making it fit in so that you don't really even notice it,
|
||||
> so it's part of everyday life.
|
||||
>
|
||||
> <cite>- Bill Gates</cite>
|
||||
|
||||
```markdown
|
||||
> The advance of technology is based on making it fit in so that you don't really even notice it,
|
||||
> so it's part of everyday life.
|
||||
>
|
||||
> <cite>- Bill Gates</cite>
|
||||
```
|
||||
|
||||
### Unordered List
|
||||
|
||||
* list item 1
|
||||
* list item 2
|
||||
* list item 2.1
|
||||
* list item 2.2
|
||||
* list item 2.3
|
||||
* list item 3
|
||||
|
||||
```markdown
|
||||
* list item 1
|
||||
* list item 2
|
||||
* list item 2.1
|
||||
* list item 2.2
|
||||
* list item 2.3
|
||||
* list item 3
|
||||
```
|
||||
|
||||
### Ordered List
|
||||
|
||||
1. list item 1
|
||||
1. list item 2
|
||||
1. list item 2.1
|
||||
1. list item 2.2
|
||||
1. list item 2.3
|
||||
1. list item 3
|
||||
|
||||
```markdown
|
||||
1. list item 1
|
||||
1. list item 2
|
||||
1. list item 2.1
|
||||
1. list item 2.2
|
||||
1. list item 2.3
|
||||
1. list item 3
|
||||
```
|
||||
|
||||
### Table
|
||||
|
||||
| Name | Genre | Release date |
|
||||
| :-------------------------- | :---------------------------: | -------------------: |
|
||||
| The Shawshank Redemption | Crime, Drama | 14 October 1994 |
|
||||
| The Godfather | Crime, Drama | 24 March 1972 |
|
||||
| Schindler's List | Biography, Drama, History | 4 February 1994 |
|
||||
| Se7en | Crime, Drama, Mystery | 22 September 1995 |
|
||||
|
||||
```markdown
|
||||
| Name | Genre | Release date |
|
||||
| :-------------------------- | :---------------------------: | -------------------: |
|
||||
| The Shawshank Redemption | Crime, Drama | 14 October 1994 |
|
||||
| The Godfather | Crime, Drama | 24 March 1972 |
|
||||
| Schindler's List | Biography, Drama, History | 4 February 1994 |
|
||||
| Se7en | Crime, Drama, Mystery | 22 September 1995 |
|
||||
```
|
||||
|
||||
### Notices
|
||||
|
||||
The notices styles are actually provided by the `markdown-notices` plugin but are useful enough to include here:
|
||||
|
||||
! This is a warning notification
|
||||
|
||||
!! This is a error notification
|
||||
|
||||
!!! This is a default notification
|
||||
|
||||
!!!! This is a success notification
|
||||
|
||||
```markdown
|
||||
! This is a warning notification
|
||||
|
||||
!! This is a error notification
|
||||
|
||||
!!! This is a default notification
|
||||
|
||||
!!!! This is a success notification
|
||||
```
|
||||
|
14
pages/03.seq2seq/README.md
Normal file
14
pages/03.seq2seq/README.md
Normal file
@ -0,0 +1,14 @@
|
||||
---
|
||||
title: named-entity
|
||||
---
|
||||
# Sequence to sequence
|
||||
|
||||
Niektoré zaujímavé odkazy na tému sequence to sequence:
|
||||
|
||||
https://github.com/pytorch/fairseq
|
||||
|
||||
## Transformer
|
||||
|
||||
http://jalammar.github.io/illustrated-transformer/
|
||||
|
||||
https://arxiv.org/abs/1706.03762
|
22
pages/04.nlp/README.md
Normal file
22
pages/04.nlp/README.md
Normal file
@ -0,0 +1,22 @@
|
||||
---
|
||||
title: Spracovanie prirodzeného jazyka
|
||||
published: true
|
||||
---
|
||||
|
||||
# Spracovanie prirodzeného jazyka
|
||||
|
||||
## Knihy
|
||||
|
||||
- Lane, Howard, Hopke: Natural language processing in action
|
||||
|
||||
## Knižnice Python
|
||||
|
||||
- Flair https://github.com/zalandoresearch/flair
|
||||
- Spacy https://spacy.io/
|
||||
|
||||
## Word Embedding
|
||||
|
||||
- https://nlp.stanford.edu/projects/glove/
|
||||
- https://fasttext.cc/
|
||||
- https://radimrehurek.com/gensim/ (topic modelling)
|
||||
-
|
30
pages/05.prodigy/README.md
Normal file
30
pages/05.prodigy/README.md
Normal file
@ -0,0 +1,30 @@
|
||||
---
|
||||
title: Anotácia textových dát
|
||||
published: true
|
||||
---
|
||||
|
||||
# Anotácia textových dát
|
||||
|
||||
- Natrénovanie štatistického modelu pre spracovanie prirodzeného jazyka zo slovenských dát
|
||||
- Manuálna anotácia slovenských dát pre výskyt pomenovaných entít
|
||||
|
||||
## Postup
|
||||
|
||||
- Definovanie anotačnej schémy
|
||||
- Príprava dátovej množiny vhodnej na anotáciu
|
||||
- Natrénovanie štatistického modelu Spacy
|
||||
- Príprava anotačnej úlohy Prodigy
|
||||
|
||||
## Nástroje
|
||||
|
||||
- Python (príprava dát)
|
||||
- Spacy (štatistický model) [Spacy](https://spacy.io/))
|
||||
- [Prodigy](https://prodi.gy/) (anotácie)
|
||||
|
||||
## Riešitelia
|
||||
|
||||
- Andrej Hopko (BP)
|
||||
- Lukáš Pokrývka (TP)
|
||||
- Jakub Maruniak
|
||||
- [Cesar Gutierez](../named-entity) (stáž leto 2019)
|
||||
|
51
pages/20.zp/README.md
Normal file
51
pages/20.zp/README.md
Normal file
@ -0,0 +1,51 @@
|
||||
---
|
||||
title: Záverečné práce a projekty
|
||||
published: true
|
||||
---
|
||||
|
||||
# Ako písať záverečnú prácu
|
||||
|
||||
- [Ako písať záverečnú prácu](http://akopisatprace.sk/wp-content/uploads/ako_pisat_zav_prace_final_skratene2_6.pdf)
|
||||
- [Odovzdanie a šablóna](https://portal.lib.tuke.sk/etd/)
|
||||
|
||||
Predstavte čitateľovi problém a možné spôsoby riešenia. Z možných spôsobov vyberte jeden a odôvodnite že prečo.
|
||||
V praktickej časti opíšte vykonané experimenty a výsledky uch vyhodnotenia tak aby ich bolo možné opakovať.
|
||||
V závere identifikujte slabé miesta a navrhnite zlepšenia.
|
||||
|
||||
# Využívajte indexy odbornej literatúry
|
||||
|
||||
- https://scholar.google.sk/
|
||||
- https://www.scopus.com/ (prístupné iba zo školy)
|
||||
|
||||
# Používajte softvér na manažment citácií
|
||||
|
||||
Keď prečitate článok, uchovajte si bibliografický záznam pre ľahšie citovanie
|
||||
|
||||
- [Mendeley](https://www.mendeley.com/)
|
||||
- [JabRef](https://www.jabref.org/)
|
||||
|
||||
# Ako citovať
|
||||
|
||||
- https://ippr.sk/c/204-citacie-parafrazy-bibliograficke-odkazy-iso-690
|
||||
- Pri konkrétnych tvrdeniach sa odvolajte na zdroj odbornej literatúry.
|
||||
- Preferujte aktuálne a kvalitné zdroje (nie rôzne blogy, manuály alebo tutoriály).
|
||||
- Citácie by mali byť krátke.
|
||||
- Doslovné citácie zvýraznite oddelené od ostatného textu.
|
||||
- Sú povolené aj kratšie parafrázy.
|
||||
- Počet referencia by mal byť min. 1 na každé dve strany.
|
||||
|
||||
# Používajte správne slovenské termíny
|
||||
|
||||
Ak ste si nie istí prekladom pojmu z angličtiny , pozrite si slovenskú literatúru na danú tému.
|
||||
|
||||
Konzultujte existujúce odborné slovníky napr. z:
|
||||
|
||||
- https://terminologickyportal.sk/
|
||||
|
||||
## Zadanie záverečnej práce
|
||||
|
||||
1. Definujte PROBLÉM
|
||||
2. Vypracujte prehľad možných metód riešenia a vyberte vhodnú METÓDU
|
||||
3. Vyberte metódu OHODNOTENIA, navrhnite a vykonajte EXPERIMENTY.
|
||||
4. Vyhodnoťte experimenty a navrhnite možné zlepšenia
|
||||
|
119
pages/30.tim/README.md
Normal file
119
pages/30.tim/README.md
Normal file
@ -0,0 +1,119 @@
|
||||
---
|
||||
title: Spracovanie prirodzeného jazyka a jazyk Python
|
||||
published: true
|
||||
---
|
||||
|
||||
# Tímový projekt 2019
|
||||
|
||||
Vedúci:
|
||||
|
||||
[Daniel Hládek](../) - odporúčaný čas konzultácie: štvrtok o 9:00
|
||||
|
||||
[Pokyny KEMT](http://kemt.fei.tuke.sk/studium/diplomova-praca/organizacne-pokyny-k-predmetu-timovy-projekt-v-st-programe-pocitacove-siete-2019-2020/)
|
||||
|
||||
Ciele:
|
||||
|
||||
- oboznámiť sa so základmi spracovania prirodzeného jazyka
|
||||
- oboznámiť sa s jazykom Python
|
||||
- špecifikovať zadanie diplomovej práce
|
||||
- naučiť sa pracovať s [odbornou literatúrou](../zp)
|
||||
- oboznámiť kolegov s obsahom vykonanej práce
|
||||
|
||||
Výstupy:
|
||||
|
||||
Rozsah výstupu min. 3 A4 kvalitného textu
|
||||
|
||||
- Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň)
|
||||
- vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov)
|
||||
- odovzdanie cez [MOOODLE](https://moodle.tuke.sk/moodle35/course/view.php?id=874) kľúč je TP2019
|
||||
|
||||
|
||||
Odporúčané nástroje:
|
||||
|
||||
- Prostredie [Anaconda](https://www.anaconda.com/distribution/)
|
||||
- Chatbot [RASA](https://rasa.com/)
|
||||
- Knižnica [Spacy](https://spacy.io/)
|
||||
- Anotácie [Prodigy](https://prodi.gy/)
|
||||
- Získavanie informácií [Elasticsearch](https://www.elastic.co/products/elasticsearch)
|
||||
- seq2seq Neurónové siete [Fairseq](https://github.com/pytorch/fairseq)
|
||||
- webové aplikácie a REST [Flask](https://www.fullstackpython.com/flask.html)
|
||||
|
||||
Odporúčané témy:
|
||||
|
||||
- [identifikácia pomenovaných entít](./named-entity) (named entity recognition)
|
||||
- [dialógové systémy](./chatbot) (chatbot)
|
||||
- strojový preklad (machine translation)
|
||||
- oprava preklepov (spelling error correction, diacritics restoration)
|
||||
- získavanie informácií (vyhľadávanie v texte)
|
||||
- identifikácia viacslovných výrazov (chunking)
|
||||
- anotácia textových dát
|
||||
|
||||
Informácie a literatúra:
|
||||
|
||||
- [Spacy Tutoriál](https://nlpforhackers.io/complete-guide-to-spacy/)
|
||||
- [Dive into Python](https://diveintopython3.problemsolving.io/) [(česky)](http://diveintopython3.py.cz/index.html)
|
||||
- [Natural Language Processing in Action](https://www.manning.com/books/natural-language-processing-in-action) [(git)](https://github.com/totalgood/nlpia)
|
||||
- [Python Data Science Handbook](https://github.com/jakevdp/PythonDataScienceHandbook)
|
||||
- [Speech and Language Processing 2rd edition](https://github.com/rain1024/slp2-pdf)
|
||||
- [Speech and Language Processing 3rd edition](https://web.stanford.edu/~jurafsky/slp3/)
|
||||
|
||||
Postup:
|
||||
|
||||
- Nainštaluj si Anacondu
|
||||
- Prečítaj si materiály
|
||||
- Vyber si zaujímavú úlohu a nástroj
|
||||
- Vyskúšaj nástroj
|
||||
- Napíš správu o riešení úlohy
|
||||
|
||||
Tím 2019:
|
||||
|
||||
- Lukáš Pokrývka (flask demo, named entity)
|
||||
- Dominik Nagy (spelling correction, fairseq)
|
||||
- Maroš Harahus (part-of-speech tagging)
|
||||
- Ján Holp (získavanie informácií)
|
||||
- Dárius Lindvai (punctuation restoration, [tutorial](https://medium.com/@praneethbedapudi/deepcorrection2-automatic-punctuation-restoration-ac4a837d92d9), pytorch, LSTM tutorial)
|
||||
- Jakub Maruniak (prodigy, vytvorenie korpusu, [named-entity](../prodigy),
|
||||
|
||||
Dátumy stretnutí:
|
||||
|
||||
- 10.10 - Harahus, Holp
|
||||
- 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému)
|
||||
- 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
|
||||
- 24.10 - Pracovná cesta
|
||||
- 28.10 o 9:00, Holp, Harahus
|
||||
- 31.10 - Dekanské voľno
|
||||
- 4.11 - Maruniak
|
||||
- 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus
|
||||
- 14.11 - Lindvai, Harahus, Holp
|
||||
|
||||
Maroš Harahus
|
||||
|
||||
- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).
|
||||
- Návrh na zadanie: Doplnenie podpory slovenského jazyka do nlp frameworku (spacy alebo flair)
|
||||
|
||||
Dárius Lindvai
|
||||
|
||||
- Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
|
||||
- krátky program a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne [ako](https://pytorch.org/tutorials/beginner/nlp/sequence_models_tutorial.html).
|
||||
- [zaujimavy blog](http://jalammar.github.io/illustrated-transformer/)
|
||||
|
||||
Ján Holp
|
||||
|
||||
- Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
|
||||
- citujte 10 najvýznamnejších bibliografických zdrojov
|
||||
|
||||
Jakub Maruniak
|
||||
|
||||
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
|
||||
- citujte min. 10 najvýznamnejších bibliografických zdrojov
|
||||
|
||||
Dominik Nagy:
|
||||
|
||||
- Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
|
||||
- citujte min. 10 najvýznamnejších bibliografických zdrojov
|
||||
|
||||
Lukáš Pokrývka:
|
||||
|
||||
- min. 4 strany rešerš na tému: "Paralelné spracovanie prirodzeného jazyka" alebo "Paralelné trénovanie sémantických modelov prorodzeného jazyka" (word2vec, word embeddings, GloVe, fastText)
|
||||
- citujte min. 10 najvýznamnejších bibliografických zdrojov
|
||||
|
9
pages/39.bp19/README.md
Normal file
9
pages/39.bp19/README.md
Normal file
@ -0,0 +1,9 @@
|
||||
---
|
||||
title: Bakalárske práce 2018/2019
|
||||
published: true
|
||||
---
|
||||
|
||||
- Vyhľadávač na slovenskom internete: [Ján Holp](http://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1&seo=CRZP-detail-kniha)
|
||||
- Identifikácia hraníc viet a dopĺňanie interpunkčných znamienok: [Dárius Lindvai](http://opac.crzp.sk/?fn=detailBiblioForm&sid=2D0B46080A5AC858AA11B21AE978&seo=CRZP-detail-kniha)
|
||||
- Patrik Pavlišin TBD
|
||||
|
BIN
pages/40.bp20/.default.md.swp
Normal file
BIN
pages/40.bp20/.default.md.swp
Normal file
Binary file not shown.
174
pages/40.bp20/README.md
Normal file
174
pages/40.bp20/README.md
Normal file
@ -0,0 +1,174 @@
|
||||
---
|
||||
title: Bakalársky projekt 2019/2020
|
||||
published: true
|
||||
---
|
||||
|
||||
# Bakalársky projekt 2019/2020
|
||||
|
||||
- Vedúci: Daniel Hládek
|
||||
- odporúčaný čas konzultácie: štvrtok o 9:00
|
||||
- Oblasť výskumu: Spracovanie prirodzeného jazyka
|
||||
|
||||
# Ciele
|
||||
|
||||
- oboznámiť sa so základmi spracovania prirodzeného jazyka
|
||||
- naučiť sa pracovať s [odbornou literatúrou](../zp)
|
||||
|
||||
# Výstupy
|
||||
|
||||
- článok na vybranú tému
|
||||
- praktická aplikácia (demo, krátky program)
|
||||
- [Odovzdanie cez Moodle](https://moodle.tuke.sk/moodle35/course/view.php?id=872&noprocess) heslo je BP2019
|
||||
|
||||
# Témy
|
||||
|
||||
- Anotácia lingvistického korpusu : Andrej Hopko
|
||||
- Identifikácia pomenovaných entít v slovenskom jazyku: Ediz Morochovič (študent na mobilite)
|
||||
- Identifikácia pomenovaných entít v prirodzenom jazyku s pomocou neurónových sietí: Kyryl Kobzar
|
||||
- Rekurentné neurónové siete pre jazykové modelovanie a generovanie prirodzeného jazyka: Stanislav Matsunych
|
||||
- Jednoduchý chatbot v jazyku Python: Dymitro Ushatenko
|
||||
- Automatická oprava preklepov: Peter Maľar
|
||||
|
||||
# Stretnutia
|
||||
|
||||
- 10.10 - Hopko, Matsunych, Kobzar
|
||||
- 17.10 - Hopko, Pavlišin, Matsunych, Kobzar, Ushatenko (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda)
|
||||
- 21.10. - Maľar
|
||||
- 24.10 - Pracovná cesta
|
||||
- 28.10 o 9:30 -
|
||||
- 31.10 - Dekanské voľno
|
||||
- 4.11. - Hopko
|
||||
- 7.11 - Maľar, Ushatenko
|
||||
- 14.11 - Odovzdanie draftu reportu
|
||||
|
||||
# Andrej Hopko
|
||||
|
||||
- Práca pomocou "Anaconda Prompt"
|
||||
- Vyskúšať "python -m spacy" podľa tutoriálu na stránke
|
||||
- Oboznámiť sa s https://prodi.gy/ (využíva spacy) a nainštalovať (python wheel)
|
||||
|
||||
28.10
|
||||
|
||||
- Na idoc.fei.tuke.sk nainštalovať [Minoconda](https://repo.anaconda.com/miniconda/)
|
||||
- pozrite si "python virtualenv" a [prostredia conda](https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html)
|
||||
|
||||
Cieľ:
|
||||
|
||||
- Vedieť pripraviť textové dáta na anotáciu pomocou Prodigy (textové dáta sa použijú na učenie systému)
|
||||
- V prvom semestri bude výstup:
|
||||
- Oboznámiť sa "ako písať záverečnú pracu"
|
||||
- nainštalovaný systém prodigy
|
||||
- Vybratá dátová množina pripravená vo vhodnom formáte.
|
||||
- Pripravená anotačná uloha
|
||||
- Report o inštalácii Prodigy a príprave anotačnej úlohy na cca 3 strany použiteľný ako návod pre druhých - vysvetlite na čo sú potrebné anotácie a čo je crowdsourcing
|
||||
- V reporte spomente aspoň 3 odborné články na tému "crowdsourcing"
|
||||
- V druhom semestri - rešerš o príprave trénovacích dát a crowdsourcingu.
|
||||
|
||||
# Stanislav Matsunych
|
||||
|
||||
Pozrieť si
|
||||
|
||||
- https://medium.com/@shivambansal36/language-modelling-text-generation-using-lstms-deep-learning-for-nlp-ed36b224b275
|
||||
- https://towardsdatascience.com/character-level-language-model-1439f5dd87fe
|
||||
|
||||
Prejsť si tutoriál http://karpathy.github.io/2015/05/21/rnn-effectiveness/
|
||||
|
||||
Cielom je:
|
||||
|
||||
Vytvoriť jazykový model slovenského jazyka na báze rekurentných neurónových sietí
|
||||
|
||||
- V prvom semestri bude výstup:
|
||||
- jednoduchý program na vytvorenie LM a generovanie znakov z neho
|
||||
|
||||
- Vypracujte rešerš na tému "Rekurentné neurónové siete na tvorbu jazykových modelov " (LSTM, GRU) cca 10 strán
|
||||
|
||||
V druhom semestri
|
||||
|
||||
- dopracovanie práce
|
||||
|
||||
|
||||
# Kyryl Kobzar
|
||||
|
||||
Cieľom je:
|
||||
|
||||
Vedieť použiť nástroj Spacy na natrénovanie modelu a rozpoznávanie pomenovaných entít v texte v (anglickom) jazyku
|
||||
|
||||
Zdroje dát
|
||||
|
||||
https://lindat.mff.cuni.cz/repository/xmlui/
|
||||
|
||||
https://lindat.mff.cuni.cz/repository/xmlui/discover?field=subject&filtertype=subject&filter_relational_operator=equals&filter=named+entity+recognition
|
||||
|
||||
Výstup do prvého semestra:
|
||||
|
||||
- Tutoriál na cca 3-4 strany ako natrénovať a použiť Spacy na rozpoznávanie pomenovaných entít
|
||||
- Rešerš na tému cca 10 strán : "Rozpoznávanie pomenovaných entít" - "named entity recognition", vystetlíte, čo to je, aké metódy sa používajú, ako sa to vyhodnocuje.
|
||||
|
||||
V druhom semestri:
|
||||
|
||||
- natrénovanie vlastného modelu na vlastných dátach
|
||||
- vyhodnotenie modelu
|
||||
- dokončenie práce
|
||||
|
||||
|
||||
# Dmytro Ushatenko
|
||||
|
||||
Cieľ:
|
||||
|
||||
Vytvorenie jednoduchého chatbota s použitím toolkitu RASA ktorý bude informovať o zvolenej téme,
|
||||
napr. o predmetoch štúdia prvého ročníka programu PS na KEMT:
|
||||
|
||||
Pomôcka pre začínajúcich študentov:
|
||||
|
||||
- Čo mám robiť?
|
||||
- Aké predmety budem študovať?
|
||||
- Ako skončím predmet? (potrebujem zápočet a skúšku)
|
||||
|
||||
|
||||
Úlohy na tento semester:
|
||||
|
||||
- Prejdite si tutoriál https://rasa.com/docs/rasa/user-guide/rasa-tutorial/
|
||||
- Pripravte jednoduchý dialógový systém
|
||||
- Pripravte "návod na použitie", kde zapíšete čo ste spravili v tutoriáli
|
||||
- Vylepšite Vašu rešerš, dajte dôraz na citovanie zdrojov a na jazykovú stránku.
|
||||
|
||||
|
||||
V druom semestri:
|
||||
|
||||
- pripravíte si celé demo
|
||||
- dookončíte prácu
|
||||
|
||||
# Peter Maľar
|
||||
|
||||
|
||||
Cieľ:
|
||||
|
||||
Vytvoriť jednoduchý systém na opravu preklepov na báze neurónových sietí
|
||||
|
||||
Úlohy na tento semester:
|
||||
|
||||
- Naštudovať si článok "Sequence to sequence spelling correction..."
|
||||
- Nainštalovať a vyskúšať [fairseq](https://github.com/pytorch/fairseq)
|
||||
- Prejsť si tutoriál na strojový preklad https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md
|
||||
- Vytvorte (prejdite krátky tutoriál - zapisujte čo ste urobili)
|
||||
- Skúsiť zopakovať experimenty s použitím systému
|
||||
- Vytvorte rešerš na tému "sequence to sequence systémy", "encoder-decoder" neurónové siete (5 strán, min. 5 odborných článkov)
|
||||
|
||||
# Ediz Morochovič
|
||||
|
||||
Zadanie BP:
|
||||
|
||||
1. Vypracujte prehľad štatistických metód identifikácie pomenovaných entít v texte.
|
||||
2. Podrobne opíšte zvolenú metódu identifikácie pomenovaných entít v texte
|
||||
3. Zvoľte si vhodnú metodiku vyhodnotenia a na vhodnej testovacej množine navrhnite a vykonajte sadu experimentov.
|
||||
4. Na základe výsledkov experimentov navrhnite možné zlepšenia.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Nainštalujte si prostredie Anaconda https://www.anaconda.com/
|
||||
- Oboznámiť sa so zvoleným štatistickým systémom pre rozpoznávanie pomenovaných entít (https://www.nltk.org/), https://www.nltk.org/install.html, https://stanfordnlp.github.io/CoreNLP/, https://www.nltk.org/book/
|
||||
- Zistite použitú štatistickú metódu a podrobne ju opíšte
|
||||
- Vypracujte prehľad používaných štatistických metód (maximum entropy, conditional random fields, hidden markov models), min. 5 strán s min. 10 odkazmi na odborné články
|
||||
- Navrhnite experimenty a vykonajte ich s rôznymi parametrami systému
|
||||
|
||||
|
@ -1,2 +0,0 @@
|
||||
# Záverečné práce
|
||||
|
@ -1 +0,0 @@
|
||||
zzz
|
Loading…
Reference in New Issue
Block a user