forked from KEMT/zpwiki
		
	initial
This commit is contained in:
		
							parent
							
								
									5e065b59ff
								
							
						
					
					
						commit
						607b4c46c7
					
				
							
								
								
									
										38
									
								
								pages/01.chatbot/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										38
									
								
								pages/01.chatbot/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,38 @@ | ||||
| --- | ||||
| title: chatbot | ||||
| --- | ||||
| 
 | ||||
| # Chatbot | ||||
| 
 | ||||
| Ciele: Vytvorenie demonštračnej aplikácie pre interaktívnu komunikáciu s | ||||
| automatom | ||||
| 
 | ||||
| ## Zdroje | ||||
| 
 | ||||
|   - <https:%%//%%chatbotslife.com/how-you-can-build-your-first-chatbot-using-rasa-in-under-15-minutes-ce557ea52f2f> | ||||
|   - <https:%%//%%medium.com/analytics-vidhya/building-a-simple-chatbot-in-python-using-nltk-7c8c8215ac6e> | ||||
| 
 | ||||
| ### Prostriedky | ||||
| 
 | ||||
|   - [RASA toolbox](https://rasa.com/) | ||||
|   - Slack(<https:%%//%%slack.com>) - ako rozhranie | ||||
| 
 | ||||
| ## Riešitelia | ||||
| 
 | ||||
|   - Dmytro Ushatenko (Daniel Hládek), 19/20 | ||||
|   - Jozef Olekšák (Stanislav Ondáš) 18/19 Riadenie dialógu na báze | ||||
|     štatických metód | ||||
| 
 | ||||
| ## Existujúce riešenia | ||||
| 
 | ||||
|   - [KEMT Bot](https://kemt.fei.tuke.sk) | ||||
|   - <https:%%//%%jobothq.slack.com/> | ||||
| 
 | ||||
| ## Riešiteľ 1 | ||||
| 
 | ||||
| Zadanie: | ||||
| 
 | ||||
| 1.  Vypracujte úvod do problematiky systémov pre riadenie dialógu | ||||
| 2.  Vypracujte prehľad používaných metód riadenia dialógu | ||||
| 3.  Navrhnite a implementujte agenta pre zisťovanie informácií o katedre | ||||
|     KEM | ||||
							
								
								
									
										55
									
								
								pages/01.home/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										55
									
								
								pages/01.home/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,55 @@ | ||||
| # Záverečné práce na KEMT | ||||
| Wiki stánka pre prezentáciu a spoluprácu na záverečných prácach. | ||||
| 
 | ||||
| ## Ako sa zúčastním | ||||
| 
 | ||||
| Všetky stánky sú napísané vo formáte Markdown. Je možné ich editovať pomocou webového rozhrania alebo  | ||||
| pomocou Vášho obľúbeného textového editora a synchronizovať s Vašim počítačom. | ||||
| 
 | ||||
| ## Kto to uvidí | ||||
| 
 | ||||
| Všetky stránky sú prístupné pre všetkých prihlásených používateľov. | ||||
| 
 | ||||
| ## Čo tu nájdem | ||||
| 
 | ||||
| - informácie o vedúcich záverečných prác | ||||
| - zadania záverečných prác | ||||
| - návody ako vytvoriť záverečnú prácu | ||||
| - články o zaujímavých témach | ||||
| - predbežné výsledky  | ||||
| - referáty | ||||
| - bakalárske práce | ||||
| - diplomové práce | ||||
| - odkazy na repozitáre so zdrojovým kódom | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| --- | ||||
| title: Záverečné práce a projekty | ||||
| published: true | ||||
| --- | ||||
| 
 | ||||
| - Vedúci:  Daniel Hládek  | ||||
| - odporúčaný čas konzultácie: štvrtok o 9:00 | ||||
| - Oblasť výskumu: Spracovanie prirodzeného jazyka | ||||
| 
 | ||||
| # Predmety | ||||
| 
 | ||||
| - [Bakalársky projekt 2019](./bp20) | ||||
| - [Tímový projekt 2019](./tim) | ||||
| - [Bakalárske práce 2018/2019](./bp19) | ||||
| 
 | ||||
| # Ako písať záverečnú prácu | ||||
| 
 | ||||
| - [Ako písať záverečnú prácu](http://akopisatprace.sk/wp-content/uploads/ako_pisat_zav_prace_final_skratene2_6.pdf) | ||||
| - [Odovzdanie a šablóna](https://portal.lib.tuke.sk/etd/) | ||||
| 
 | ||||
| ## Zadanie záverečnej práce | ||||
| 
 | ||||
| 1.  Definujte PROBLÉM | ||||
| 2.  Vypracujte prehľad možných metód riešenia a vyberte vhodnú METÓDU | ||||
| 3.  Vyberte metódu OHODNOTENIA, navrhnite a vykonajte EXPERIMENTY. | ||||
| 4.  Vyhodnoťte experimenty a navrhnite možné zlepšenia  | ||||
| 
 | ||||
| 
 | ||||
| @ -1,42 +0,0 @@ | ||||
| --- | ||||
| title: Home | ||||
| body_classes: title-center title-h1h2 | ||||
| --- | ||||
| 
 | ||||
| # Say Hello to Grav! | ||||
| ## installation successful... | ||||
| 
 | ||||
| Congratulations! You have installed the **Base Grav Package** that provides a **simple page** and the default **Quark** theme to get you started. | ||||
| 
 | ||||
| !! If you see a **404 Error** when you click `Typography` in the menu, please refer to the [troubleshooting guide](http://learn.getgrav.org/troubleshooting/page-not-found). | ||||
| 
 | ||||
| ### Find out all about Grav | ||||
| 
 | ||||
| * Learn about **Grav** by checking out our dedicated [Learn Grav](http://learn.getgrav.org) site. | ||||
| * Download **plugins**, **themes**, as well as other Grav **skeleton** packages from the [Grav Downloads](http://getgrav.org/downloads) page. | ||||
| * Check out our [Grav Development Blog](http://getgrav.org/blog) to find out the latest goings on in the Grav-verse. | ||||
| 
 | ||||
| !!! If you want a more **full-featured** base install, you should check out [**Skeleton** packages available in the downloads](http://getgrav.org/downloads). | ||||
| 
 | ||||
| ### Edit this Page | ||||
| 
 | ||||
| To edit this page, simply navigate to the folder you installed **Grav** into, and then browse to the `user/pages/01.home` folder and open the `default.md` file in your [editor of choice](http://learn.getgrav.org/basics/requirements).  You will see the content of this page in [Markdown format](http://learn.getgrav.org/content/markdown). | ||||
| 
 | ||||
| ### Create a New Page | ||||
| 
 | ||||
| Creating a new page is a simple affair in **Grav**.  Simply follow these simple steps: | ||||
| 
 | ||||
| 1. Navigate to your pages folder: `user/pages/` and create a new folder.  In this example, we will use [explicit default ordering](http://learn.getgrav.org/content/content-pages) and call the folder `03.mypage`. | ||||
| 2. Launch your text editor and paste in the following sample code: | ||||
| 
 | ||||
|         --- | ||||
|         title: My New Page | ||||
|         --- | ||||
|         # My New Page! | ||||
| 
 | ||||
|         This is the body of **my new page** and I can easily use _Markdown_ syntax here. | ||||
| 
 | ||||
| 3. Save this file in the `user/pages/03.mypage/` folder as `default.md`. This will tell **Grav** to render the page using the **default** template. | ||||
| 4. That is it! Reload your browser to see your new page in the menu. | ||||
| 
 | ||||
| ! NOTE: The page will automatically show up in the Menu after the "Typography" menu item. If you wish to change the name that shows up in the Menu, simple add: `menu: My Page` between the dashes in the page content. This is called the YAML front matter, and it is where you configure page-specific options. | ||||
| @ -1,9 +0,0 @@ | ||||
| --- | ||||
| title: '' | ||||
| media_order: '' | ||||
| body_classes: '' | ||||
| order_by: '' | ||||
| order_manual: '' | ||||
| --- | ||||
| 
 | ||||
| # sdfadsfdsf | ||||
							
								
								
									
										44
									
								
								pages/02.named-entity/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										44
									
								
								pages/02.named-entity/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,44 @@ | ||||
| --- | ||||
| title: named-entity | ||||
| --- | ||||
| 
 | ||||
| # Named Entities | ||||
| 
 | ||||
| ## Goals | ||||
| 
 | ||||
|   - Be able to recognize unknown named entities | ||||
|   - Create a manually annotated training set from speech transcripts | ||||
|   - Propose an annotation schema | ||||
| 
 | ||||
| ## Plan | ||||
| 
 | ||||
|   - Convert speech transcripts into a training set | ||||
|   - Train and evaluate classifier | ||||
|   - Establish manual annotation  | ||||
|   - Select unannotated data  | ||||
| 
 | ||||
| ### Data preparation | ||||
| 
 | ||||
| Input: Transcriber transcripts with inconsistent annotations | ||||
| 
 | ||||
| ```  | ||||
|  * First small letter: regular word | ||||
|  * Capital: named entity | ||||
|  * ''^^'': faoreign word | ||||
|  * ''@'': noise | ||||
|  * ''_'': multi word expression | ||||
|  * ''/'': pronuncation | ||||
| ``` | ||||
| 
 | ||||
| Output: A file that can be read by `spacy convert` | ||||
| 
 | ||||
| ## People | ||||
| 
 | ||||
| Cesar Abascal Gutierrez <cesarbielva1994@gmail.com> | ||||
| 
 | ||||
| ## Tools | ||||
| 
 | ||||
| ```  | ||||
|  * Machine learning : https://spacy.io/usage/training | ||||
|  * Manual Annotation : https://prodi.gy/ | ||||
| ``` | ||||
| @ -1,155 +0,0 @@ | ||||
| --- | ||||
| title: Typography | ||||
| --- | ||||
| 
 | ||||
| ! Details on the full capabilities of Spectre.css can be found in the [Official Spectre Documentation](https://picturepan2.github.io/spectre/elements.html) | ||||
| 
 | ||||
| The [Quark theme](https://github.com/getgrav/grav-theme-quark) is the new default theme for Grav built with [Spectre.css](https://picturepan2.github.io/spectre/) the lightweight, responsive and modern CSS framework. Spectre provides  basic styles for typography, elements, and a responsive layout system that utilizes best practices and consistent language design. | ||||
| 
 | ||||
| ### Headings | ||||
| 
 | ||||
| # H1 Heading `40px` | ||||
| 
 | ||||
| ## H2 Heading `32px` | ||||
| 
 | ||||
| ### H3 Heading `28px` | ||||
| 
 | ||||
| #### H4 Heading `24px` | ||||
| 
 | ||||
| ##### H5 Heading `20px` | ||||
| 
 | ||||
| ###### H6 Heading `16px` | ||||
| 
 | ||||
| ```html | ||||
| # H1 Heading | ||||
| # H1 Heading `40px`</small>` | ||||
| 
 | ||||
| <span class="h1">H1 Heading</span> | ||||
| ``` | ||||
| 
 | ||||
| ### Paragraphs | ||||
| 
 | ||||
| Lorem ipsum dolor sit amet, consectetur [adipiscing elit. Praesent risus leo, dictum in vehicula sit amet](#), feugiat tempus tellus. Duis quis sodales risus. Etiam euismod ornare consequat. | ||||
| 
 | ||||
| Climb leg rub face on everything give attitude nap all day for under the bed. Chase mice attack feet but rub face on everything hopped up on goofballs. | ||||
| 
 | ||||
| ### Markdown Semantic Text Elements | ||||
| 
 | ||||
| **Bold** `**Bold**` | ||||
| 
 | ||||
| _Italic_ `_Italic_` | ||||
| 
 | ||||
| ~~Deleted~~ `~~Deleted~~` | ||||
| 
 | ||||
| `Inline Code` `` `Inline Code` `` | ||||
| 
 | ||||
| ### HTML Semantic Text Elements | ||||
| 
 | ||||
| <abbr>I18N</abbr> `<abbr>` | ||||
| 
 | ||||
| <cite>Citation</cite> `<cite>` | ||||
| 
 | ||||
| <kbd>Ctrl + S</kbd> `<kbd>` | ||||
| 
 | ||||
| Text<sup>Superscripted</sup> `<sup>` | ||||
| 
 | ||||
| Text<sub>Subscripted</sub> `<sub>` | ||||
| 
 | ||||
| <u>Underlined</u> `<u>` | ||||
| 
 | ||||
| <mark>Highlighted</mark> `<mark>` | ||||
| 
 | ||||
| <time>20:14</time> `<time>` | ||||
| 
 | ||||
| <var>x = y + 2</var> `<var>` | ||||
| 
 | ||||
| ### Blockquote | ||||
| 
 | ||||
| > The advance of technology is based on making it fit in so that you don't really even notice it, | ||||
| > so it's part of everyday life. | ||||
| > | ||||
| > <cite>- Bill Gates</cite> | ||||
| 
 | ||||
| ```markdown | ||||
| > The advance of technology is based on making it fit in so that you don't really even notice it, | ||||
| > so it's part of everyday life. | ||||
| > | ||||
| > <cite>- Bill Gates</cite> | ||||
| ``` | ||||
| 
 | ||||
| ### Unordered List | ||||
| 
 | ||||
| * list item 1 | ||||
| * list item 2 | ||||
|     * list item 2.1 | ||||
|     * list item 2.2 | ||||
|     * list item 2.3 | ||||
| * list item 3 | ||||
| 
 | ||||
| ```markdown | ||||
| * list item 1 | ||||
| * list item 2 | ||||
|     * list item 2.1 | ||||
|     * list item 2.2 | ||||
|     * list item 2.3 | ||||
| * list item 3 | ||||
| ``` | ||||
| 
 | ||||
| ### Ordered List | ||||
| 
 | ||||
| 1. list item 1 | ||||
| 1. list item 2 | ||||
|     1. list item 2.1 | ||||
|     1. list item 2.2 | ||||
|     1. list item 2.3 | ||||
| 1. list item 3 | ||||
| 
 | ||||
| ```markdown | ||||
| 1. list item 1 | ||||
| 1. list item 2 | ||||
|     1. list item 2.1 | ||||
|     1. list item 2.2 | ||||
|     1. list item 2.3 | ||||
| 1. list item 3 | ||||
| ``` | ||||
| 
 | ||||
| ### Table | ||||
| 
 | ||||
| | Name                        | Genre                         | Release date         | | ||||
| | :-------------------------- | :---------------------------: | -------------------: | | ||||
| | The Shawshank Redemption    | Crime, Drama                  | 14 October 1994      | | ||||
| | The Godfather               | Crime, Drama                  | 24 March 1972        | | ||||
| | Schindler's List            | Biography, Drama, History     | 4 February 1994      | | ||||
| | Se7en                       | Crime, Drama, Mystery         | 22 September 1995    | | ||||
| 
 | ||||
| ```markdown | ||||
| | Name                        | Genre                         | Release date         | | ||||
| | :-------------------------- | :---------------------------: | -------------------: | | ||||
| | The Shawshank Redemption    | Crime, Drama                  | 14 October 1994      | | ||||
| | The Godfather               | Crime, Drama                  | 24 March 1972        | | ||||
| | Schindler's List            | Biography, Drama, History     | 4 February 1994      | | ||||
| | Se7en                       | Crime, Drama, Mystery         | 22 September 1995    | | ||||
| ``` | ||||
| 
 | ||||
| ### Notices | ||||
| 
 | ||||
| The notices styles are actually provided by the `markdown-notices` plugin but are useful enough to include here: | ||||
| 
 | ||||
| ! This is a warning notification | ||||
| 
 | ||||
| !! This is a error notification | ||||
| 
 | ||||
| !!! This is a default notification | ||||
| 
 | ||||
| !!!! This is a success notification | ||||
| 
 | ||||
| ```markdown | ||||
| ! This is a warning notification | ||||
| 
 | ||||
| !! This is a error notification | ||||
| 
 | ||||
| !!! This is a default notification | ||||
| 
 | ||||
| !!!! This is a success notification | ||||
| ``` | ||||
| 
 | ||||
							
								
								
									
										14
									
								
								pages/03.seq2seq/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										14
									
								
								pages/03.seq2seq/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,14 @@ | ||||
| --- | ||||
| title: named-entity | ||||
| --- | ||||
| # Sequence to sequence | ||||
| 
 | ||||
| Niektoré zaujímavé odkazy na tému sequence to sequence: | ||||
| 
 | ||||
| https://github.com/pytorch/fairseq | ||||
| 
 | ||||
| ## Transformer | ||||
| 
 | ||||
| http://jalammar.github.io/illustrated-transformer/ | ||||
| 
 | ||||
| https://arxiv.org/abs/1706.03762 | ||||
							
								
								
									
										22
									
								
								pages/04.nlp/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										22
									
								
								pages/04.nlp/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,22 @@ | ||||
| --- | ||||
| title: Spracovanie prirodzeného jazyka | ||||
| published: true | ||||
| --- | ||||
| 
 | ||||
| # Spracovanie prirodzeného jazyka | ||||
| 
 | ||||
| ## Knihy | ||||
| 
 | ||||
| - Lane, Howard, Hopke: Natural language processing  in action | ||||
| 
 | ||||
| ## Knižnice Python | ||||
| 
 | ||||
| - Flair https://github.com/zalandoresearch/flair | ||||
| - Spacy https://spacy.io/ | ||||
| 
 | ||||
| ## Word Embedding | ||||
| 
 | ||||
| - https://nlp.stanford.edu/projects/glove/ | ||||
| - https://fasttext.cc/ | ||||
| - https://radimrehurek.com/gensim/ (topic modelling) | ||||
| - | ||||
							
								
								
									
										30
									
								
								pages/05.prodigy/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										30
									
								
								pages/05.prodigy/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,30 @@ | ||||
| --- | ||||
| title: Anotácia textových dát | ||||
| published: true | ||||
| --- | ||||
| 
 | ||||
| # Anotácia textových dát | ||||
| 
 | ||||
| - Natrénovanie štatistického modelu pre spracovanie prirodzeného jazyka zo slovenských dát | ||||
| - Manuálna anotácia slovenských dát pre výskyt pomenovaných entít | ||||
| 
 | ||||
| ## Postup | ||||
| 
 | ||||
| - Definovanie anotačnej schémy | ||||
| - Príprava dátovej množiny vhodnej na anotáciu | ||||
| - Natrénovanie štatistického modelu Spacy | ||||
| - Príprava anotačnej úlohy Prodigy | ||||
| 
 | ||||
| ## Nástroje | ||||
| 
 | ||||
| - Python (príprava dát) | ||||
| - Spacy (štatistický model) [Spacy](https://spacy.io/)) | ||||
| - [Prodigy](https://prodi.gy/) (anotácie)  | ||||
| 
 | ||||
| ## Riešitelia | ||||
| 
 | ||||
| - Andrej Hopko (BP) | ||||
| - Lukáš Pokrývka (TP) | ||||
| - Jakub Maruniak | ||||
| - [Cesar Gutierez](../named-entity) (stáž leto 2019) | ||||
| 
 | ||||
							
								
								
									
										51
									
								
								pages/20.zp/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										51
									
								
								pages/20.zp/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,51 @@ | ||||
| --- | ||||
| title: Záverečné práce a projekty | ||||
| published: true | ||||
| --- | ||||
| 
 | ||||
| # Ako písať záverečnú prácu | ||||
| 
 | ||||
| - [Ako písať záverečnú prácu](http://akopisatprace.sk/wp-content/uploads/ako_pisat_zav_prace_final_skratene2_6.pdf) | ||||
| - [Odovzdanie a šablóna](https://portal.lib.tuke.sk/etd/) | ||||
| 
 | ||||
| Predstavte čitateľovi problém  a  možné spôsoby riešenia. Z možných spôsobov vyberte jeden a odôvodnite že prečo. | ||||
| V praktickej časti opíšte vykonané experimenty a výsledky uch vyhodnotenia tak aby ich bolo možné opakovať. | ||||
| V závere identifikujte slabé miesta a navrhnite zlepšenia. | ||||
| 
 | ||||
| # Využívajte indexy odbornej literatúry | ||||
| 
 | ||||
| - https://scholar.google.sk/  | ||||
| - https://www.scopus.com/ (prístupné iba zo školy) | ||||
| 
 | ||||
| # Používajte softvér na manažment citácií | ||||
| 
 | ||||
| Keď prečitate článok, uchovajte si bibliografický záznam pre ľahšie citovanie | ||||
| 
 | ||||
| - [Mendeley](https://www.mendeley.com/) | ||||
| - [JabRef](https://www.jabref.org/) | ||||
| 
 | ||||
| # Ako citovať | ||||
| 
 | ||||
| - https://ippr.sk/c/204-citacie-parafrazy-bibliograficke-odkazy-iso-690 | ||||
| - Pri konkrétnych tvrdeniach sa odvolajte na zdroj odbornej literatúry. | ||||
| - Preferujte aktuálne a kvalitné zdroje (nie rôzne blogy, manuály alebo tutoriály). | ||||
| - Citácie by mali byť krátke. | ||||
| - Doslovné citácie zvýraznite oddelené od ostatného textu. | ||||
| - Sú povolené aj kratšie parafrázy. | ||||
| - Počet referencia by mal byť min. 1 na každé dve strany. | ||||
| 
 | ||||
| # Používajte správne slovenské termíny | ||||
| 
 | ||||
| Ak ste si nie istí prekladom pojmu z angličtiny , pozrite si slovenskú literatúru na danú tému. | ||||
| 
 | ||||
| Konzultujte existujúce odborné slovníky napr. z: | ||||
| 
 | ||||
| - https://terminologickyportal.sk/ | ||||
| 
 | ||||
| ## Zadanie záverečnej práce | ||||
| 
 | ||||
| 1.  Definujte PROBLÉM | ||||
| 2.  Vypracujte prehľad možných metód riešenia a vyberte vhodnú METÓDU | ||||
| 3.  Vyberte metódu OHODNOTENIA, navrhnite a vykonajte EXPERIMENTY. | ||||
| 4.  Vyhodnoťte experimenty a navrhnite možné zlepšenia  | ||||
| 
 | ||||
							
								
								
									
										119
									
								
								pages/30.tim/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										119
									
								
								pages/30.tim/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,119 @@ | ||||
| --- | ||||
| title: Spracovanie prirodzeného jazyka a jazyk Python | ||||
| published: true | ||||
| --- | ||||
| 
 | ||||
| # Tímový projekt 2019 | ||||
| 
 | ||||
| Vedúci:  | ||||
| 
 | ||||
| [Daniel Hládek](../) - odporúčaný čas konzultácie: štvrtok o 9:00 | ||||
| 
 | ||||
| [Pokyny KEMT](http://kemt.fei.tuke.sk/studium/diplomova-praca/organizacne-pokyny-k-predmetu-timovy-projekt-v-st-programe-pocitacove-siete-2019-2020/) | ||||
| 
 | ||||
| Ciele: | ||||
| 
 | ||||
| - oboznámiť sa so základmi spracovania prirodzeného jazyka | ||||
| - oboznámiť sa s jazykom Python | ||||
| - špecifikovať zadanie diplomovej práce | ||||
| - naučiť sa pracovať s [odbornou literatúrou](../zp) | ||||
| - oboznámiť kolegov s obsahom vykonanej práce | ||||
| 
 | ||||
| Výstupy: | ||||
| 
 | ||||
| Rozsah výstupu min. 3 A4 kvalitného textu | ||||
| 
 | ||||
| - Vypracovaný tutoriál alebo rešerš vybranej metódy (8. a 13. týždeň) | ||||
| - vypracovaný prehľad literatúry vybranej metódy (min. 10 odkazov) | ||||
| - odovzdanie cez [MOOODLE](https://moodle.tuke.sk/moodle35/course/view.php?id=874) kľúč je  TP2019 | ||||
| 
 | ||||
| 
 | ||||
| Odporúčané nástroje: | ||||
| 
 | ||||
| - Prostredie [Anaconda](https://www.anaconda.com/distribution/) | ||||
| - Chatbot [RASA](https://rasa.com/) | ||||
| - Knižnica [Spacy](https://spacy.io/) | ||||
| - Anotácie [Prodigy](https://prodi.gy/) | ||||
| - Získavanie informácií [Elasticsearch](https://www.elastic.co/products/elasticsearch) | ||||
| - seq2seq Neurónové siete [Fairseq](https://github.com/pytorch/fairseq) | ||||
| - webové aplikácie a REST [Flask](https://www.fullstackpython.com/flask.html) | ||||
| 
 | ||||
| Odporúčané témy: | ||||
| 
 | ||||
| - [identifikácia pomenovaných entít](./named-entity) (named entity recognition) | ||||
| - [dialógové systémy](./chatbot) (chatbot) | ||||
| - strojový preklad (machine translation) | ||||
| - oprava preklepov (spelling error correction, diacritics restoration) | ||||
| - získavanie informácií (vyhľadávanie v texte) | ||||
| - identifikácia viacslovných výrazov (chunking) | ||||
| - anotácia textových dát | ||||
| 
 | ||||
| Informácie a literatúra: | ||||
| 
 | ||||
| - [Spacy Tutoriál](https://nlpforhackers.io/complete-guide-to-spacy/) | ||||
| - [Dive into Python](https://diveintopython3.problemsolving.io/)  [(česky)](http://diveintopython3.py.cz/index.html) | ||||
| - [Natural Language Processing in Action](https://www.manning.com/books/natural-language-processing-in-action) [(git)](https://github.com/totalgood/nlpia) | ||||
| - [Python Data Science Handbook](https://github.com/jakevdp/PythonDataScienceHandbook) | ||||
| - [Speech and Language Processing 2rd edition](https://github.com/rain1024/slp2-pdf) | ||||
| - [Speech and Language Processing 3rd edition](https://web.stanford.edu/~jurafsky/slp3/) | ||||
| 
 | ||||
| Postup:  | ||||
| 
 | ||||
| - Nainštaluj si Anacondu | ||||
| - Prečítaj si materiály | ||||
| - Vyber si zaujímavú úlohu a nástroj | ||||
| - Vyskúšaj nástroj | ||||
| - Napíš správu o riešení úlohy | ||||
| 
 | ||||
| Tím 2019: | ||||
| 
 | ||||
| - Lukáš Pokrývka (flask demo, named entity) | ||||
| - Dominik Nagy (spelling correction, fairseq) | ||||
| - Maroš Harahus (part-of-speech tagging) | ||||
| - Ján Holp (získavanie informácií) | ||||
| - Dárius Lindvai (punctuation restoration, [tutorial](https://medium.com/@praneethbedapudi/deepcorrection2-automatic-punctuation-restoration-ac4a837d92d9), pytorch, LSTM tutorial) | ||||
| - Jakub Maruniak (prodigy, vytvorenie korpusu, [named-entity](../prodigy), | ||||
| 
 | ||||
| Dátumy stretnutí: | ||||
| 
 | ||||
| - 10.10 - Harahus, Holp | ||||
| - 14.10. - Nagy, Maruniak, Pokrývka (prečítať knihu, vybrať tému) | ||||
| - 17.10 - Harahus, Lindvai (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda) | ||||
| - 24.10 - Pracovná cesta | ||||
| - 28.10 o 9:00, Holp, Harahus | ||||
| - 31.10 - Dekanské voľno | ||||
| - 4.11 - Maruniak | ||||
| - 7.11 o 13:40 - Lindvai, Nagy, Pokrývka, Harahus | ||||
| - 14.11 - Lindvai, Harahus, Holp  | ||||
| 
 | ||||
| Maroš Harahus | ||||
| 
 | ||||
| - Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4). | ||||
| - Návrh na zadanie: Doplnenie podpory slovenského jazyka do nlp frameworku (spacy alebo flair)  | ||||
| 
 | ||||
| Dárius Lindvai | ||||
| 
 | ||||
| - Rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration" | ||||
| - krátky program  a tutoriál (program s rozsiahlym komentárom ) v Pythone na využitie LSTM, napr. podobne [ako](https://pytorch.org/tutorials/beginner/nlp/sequence_models_tutorial.html). | ||||
| - [zaujimavy blog](http://jalammar.github.io/illustrated-transformer/) | ||||
| 
 | ||||
| Ján Holp | ||||
| 
 | ||||
| - Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing" | ||||
| - citujte 10 najvýznamnejších bibliografických zdrojov | ||||
| 
 | ||||
| Jakub Maruniak | ||||
| 
 | ||||
| - Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing" | ||||
| - citujte min. 10 najvýznamnejších bibliografických zdrojov | ||||
| 
 | ||||
| Dominik Nagy: | ||||
| 
 | ||||
| - Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention) | ||||
| - citujte min. 10 najvýznamnejších bibliografických zdrojov | ||||
| 
 | ||||
| Lukáš Pokrývka: | ||||
| 
 | ||||
| -  min. 4 strany rešerš na tému: "Paralelné spracovanie prirodzeného jazyka" alebo "Paralelné trénovanie sémantických modelov prorodzeného jazyka" (word2vec, word embeddings, GloVe, fastText) | ||||
| - citujte min. 10 najvýznamnejších bibliografických zdrojov | ||||
| 
 | ||||
							
								
								
									
										9
									
								
								pages/39.bp19/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										9
									
								
								pages/39.bp19/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,9 @@ | ||||
| --- | ||||
| title:  Bakalárske práce 2018/2019 | ||||
| published: true | ||||
| --- | ||||
| 
 | ||||
| - Vyhľadávač na slovenskom internete: [Ján Holp](http://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1&seo=CRZP-detail-kniha) | ||||
| - Identifikácia hraníc viet a dopĺňanie interpunkčných znamienok: [Dárius Lindvai](http://opac.crzp.sk/?fn=detailBiblioForm&sid=2D0B46080A5AC858AA11B21AE978&seo=CRZP-detail-kniha) | ||||
| - Patrik Pavlišin TBD | ||||
| 
 | ||||
							
								
								
									
										
											BIN
										
									
								
								pages/40.bp20/.default.md.swp
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										
											BIN
										
									
								
								pages/40.bp20/.default.md.swp
									
									
									
									
									
										Normal file
									
								
							
										
											Binary file not shown.
										
									
								
							
							
								
								
									
										174
									
								
								pages/40.bp20/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										174
									
								
								pages/40.bp20/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,174 @@ | ||||
| --- | ||||
| title: Bakalársky projekt 2019/2020 | ||||
| published: true | ||||
| --- | ||||
| 
 | ||||
| # Bakalársky projekt 2019/2020 | ||||
| 
 | ||||
| - Vedúci:  Daniel Hládek  | ||||
| - odporúčaný čas konzultácie: štvrtok o 9:00 | ||||
| - Oblasť výskumu: Spracovanie prirodzeného jazyka | ||||
| 
 | ||||
| # Ciele | ||||
| 
 | ||||
| - oboznámiť sa so základmi spracovania prirodzeného jazyka | ||||
| - naučiť sa pracovať s [odbornou literatúrou](../zp) | ||||
| 
 | ||||
| # Výstupy | ||||
| 
 | ||||
| - článok na vybranú tému | ||||
| - praktická aplikácia (demo, krátky program) | ||||
| - [Odovzdanie cez Moodle](https://moodle.tuke.sk/moodle35/course/view.php?id=872&noprocess) heslo je BP2019 | ||||
| 
 | ||||
| # Témy | ||||
| 
 | ||||
| - Anotácia lingvistického korpusu : Andrej Hopko | ||||
| - Identifikácia pomenovaných entít v slovenskom jazyku: Ediz Morochovič (študent na mobilite) | ||||
| - Identifikácia pomenovaných entít v prirodzenom jazyku s pomocou neurónových sietí: Kyryl Kobzar | ||||
| - Rekurentné neurónové siete pre jazykové modelovanie a generovanie prirodzeného jazyka: Stanislav Matsunych | ||||
| - Jednoduchý chatbot v jazyku Python: Dymitro Ushatenko | ||||
| - Automatická oprava preklepov: Peter Maľar | ||||
| 
 | ||||
| # Stretnutia | ||||
| 
 | ||||
| - 10.10 - Hopko, Matsunych, Kobzar | ||||
| - 17.10 - Hopko, Pavlišin, Matsunych, Kobzar, Ushatenko (Prečítať knihu, prejsť Spacy tutoriál, nainštalovať Anaconda) | ||||
| - 21.10. - Maľar | ||||
| - 24.10 - Pracovná cesta | ||||
| - 28.10 o 9:30 - | ||||
| - 31.10 - Dekanské voľno | ||||
| - 4.11. - Hopko | ||||
| - 7.11 - Maľar, Ushatenko | ||||
| - 14.11 - Odovzdanie draftu reportu | ||||
| 
 | ||||
| # Andrej Hopko | ||||
| 
 | ||||
| - Práca pomocou "Anaconda Prompt" | ||||
| - Vyskúšať "python -m spacy" podľa tutoriálu na stránke | ||||
| - Oboznámiť sa s https://prodi.gy/ (využíva spacy) a nainštalovať (python wheel) | ||||
| 
 | ||||
| 28.10 | ||||
| 
 | ||||
| - Na idoc.fei.tuke.sk nainštalovať [Minoconda](https://repo.anaconda.com/miniconda/) | ||||
| - pozrite si  "python virtualenv" a [prostredia conda](https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html) | ||||
| 
 | ||||
| Cieľ: | ||||
| 
 | ||||
| - Vedieť pripraviť textové dáta na anotáciu pomocou Prodigy (textové dáta sa použijú na učenie systému) | ||||
| - V prvom semestri bude výstup:  | ||||
| - Oboznámiť sa "ako písať záverečnú pracu" | ||||
| - nainštalovaný systém prodigy | ||||
| - Vybratá dátová množina pripravená vo vhodnom formáte. | ||||
| - Pripravená anotačná uloha | ||||
| - Report o inštalácii Prodigy a príprave anotačnej úlohy na cca 3 strany použiteľný ako návod pre druhých - vysvetlite na čo sú potrebné anotácie a čo je crowdsourcing | ||||
| - V reporte spomente aspoň 3 odborné články na tému "crowdsourcing" | ||||
| - V druhom semestri - rešerš o príprave trénovacích dát a crowdsourcingu. | ||||
| 
 | ||||
| # Stanislav Matsunych | ||||
| 
 | ||||
| Pozrieť si   | ||||
| 
 | ||||
| - https://medium.com/@shivambansal36/language-modelling-text-generation-using-lstms-deep-learning-for-nlp-ed36b224b275 | ||||
| - https://towardsdatascience.com/character-level-language-model-1439f5dd87fe | ||||
| 
 | ||||
| Prejsť si tutoriál http://karpathy.github.io/2015/05/21/rnn-effectiveness/ | ||||
| 
 | ||||
| Cielom je:  | ||||
| 
 | ||||
| Vytvoriť jazykový model slovenského jazyka na báze rekurentných neurónových sietí | ||||
| 
 | ||||
| - V prvom semestri bude výstup: | ||||
| - jednoduchý program na vytvorenie LM a generovanie znakov z neho | ||||
| 
 | ||||
| - Vypracujte rešerš na tému "Rekurentné neurónové siete na tvorbu jazykových modelov " (LSTM, GRU) cca 10 strán | ||||
| 
 | ||||
| V druhom semestri | ||||
| 
 | ||||
| - dopracovanie práce | ||||
| 
 | ||||
| 
 | ||||
| # Kyryl Kobzar | ||||
| 
 | ||||
| Cieľom je: | ||||
| 
 | ||||
| Vedieť použiť nástroj Spacy na natrénovanie modelu a rozpoznávanie pomenovaných entít v texte v (anglickom) jazyku | ||||
| 
 | ||||
| Zdroje dát | ||||
| 
 | ||||
| https://lindat.mff.cuni.cz/repository/xmlui/ | ||||
| 
 | ||||
| https://lindat.mff.cuni.cz/repository/xmlui/discover?field=subject&filtertype=subject&filter_relational_operator=equals&filter=named+entity+recognition | ||||
| 
 | ||||
| Výstup do prvého semestra: | ||||
| 
 | ||||
| - Tutoriál na cca 3-4 strany ako natrénovať a použiť Spacy na rozpoznávanie pomenovaných entít | ||||
| - Rešerš na tému cca 10 strán : "Rozpoznávanie pomenovaných entít" - "named entity recognition", vystetlíte, čo to je, aké metódy sa používajú, ako sa to vyhodnocuje. | ||||
| 
 | ||||
| V druhom semestri: | ||||
| 
 | ||||
| - natrénovanie vlastného modelu na vlastných dátach | ||||
| - vyhodnotenie modelu | ||||
| - dokončenie práce | ||||
| 
 | ||||
| 
 | ||||
| # Dmytro Ushatenko | ||||
| 
 | ||||
| Cieľ:  | ||||
| 
 | ||||
| Vytvorenie jednoduchého chatbota s použitím toolkitu RASA ktorý bude informovať o zvolenej téme, | ||||
| napr. o predmetoch štúdia prvého ročníka programu PS na KEMT: | ||||
| 
 | ||||
| Pomôcka pre začínajúcich študentov: | ||||
| 
 | ||||
| - Čo mám robiť? | ||||
| - Aké predmety budem študovať? | ||||
| - Ako skončím predmet? (potrebujem zápočet a skúšku) | ||||
| 
 | ||||
| 
 | ||||
| Úlohy na tento semester: | ||||
| 
 | ||||
| - Prejdite si tutoriál https://rasa.com/docs/rasa/user-guide/rasa-tutorial/ | ||||
| - Pripravte jednoduchý dialógový systém | ||||
| - Pripravte "návod na použitie", kde zapíšete čo ste spravili v tutoriáli | ||||
| - Vylepšite Vašu rešerš, dajte dôraz na citovanie zdrojov a na jazykovú stránku. | ||||
| 
 | ||||
| 
 | ||||
| V druom semestri: | ||||
| 
 | ||||
| - pripravíte si celé demo | ||||
| - dookončíte prácu | ||||
| 
 | ||||
| # Peter Maľar | ||||
| 
 | ||||
| 
 | ||||
| Cieľ: | ||||
| 
 | ||||
| Vytvoriť jednoduchý systém na opravu preklepov na báze neurónových sietí | ||||
| 
 | ||||
| Úlohy na tento semester: | ||||
| 
 | ||||
| - Naštudovať si článok "Sequence to sequence spelling correction..." | ||||
| - Nainštalovať a vyskúšať [fairseq](https://github.com/pytorch/fairseq) | ||||
| - Prejsť si tutoriál na strojový preklad https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md | ||||
| - Vytvorte (prejdite krátky tutoriál - zapisujte čo ste urobili) | ||||
| - Skúsiť zopakovať experimenty s použitím systému | ||||
| - Vytvorte rešerš na tému "sequence to sequence systémy", "encoder-decoder" neurónové siete (5 strán, min. 5 odborných článkov) | ||||
| 
 | ||||
| # Ediz Morochovič | ||||
| 
 | ||||
| Zadanie BP: | ||||
| 
 | ||||
| 1. Vypracujte prehľad štatistických metód identifikácie pomenovaných entít v texte. | ||||
| 2. Podrobne opíšte zvolenú metódu identifikácie pomenovaných entít v texte | ||||
| 3. Zvoľte si vhodnú metodiku vyhodnotenia a na vhodnej testovacej množine navrhnite a vykonajte sadu experimentov. | ||||
| 4. Na základe výsledkov experimentov navrhnite možné zlepšenia. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Nainštalujte si prostredie Anaconda https://www.anaconda.com/ | ||||
| - Oboznámiť sa so zvoleným štatistickým systémom pre rozpoznávanie pomenovaných entít (https://www.nltk.org/), https://www.nltk.org/install.html, https://stanfordnlp.github.io/CoreNLP/, https://www.nltk.org/book/ | ||||
| - Zistite použitú štatistickú metódu a podrobne ju opíšte | ||||
| - Vypracujte prehľad používaných štatistických metód (maximum entropy, conditional random fields, hidden markov models), min. 5 strán s min. 10 odkazmi na odborné články | ||||
| - Navrhnite experimenty a vykonajte ich s rôznymi parametrami systému | ||||
| 
 | ||||
| 
 | ||||
| @ -1,2 +0,0 @@ | ||||
| # Záverečné práce | ||||
| 
 | ||||
| @ -1 +0,0 @@ | ||||
| zzz | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user