From 90843ce241a7a036bbacbb1af91a8dcc909cc313 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 1 Oct 2020 15:46:14 +0200 Subject: [PATCH] zz --- pages/students/2016/darius_lindvai/README.md | 8 ++++++++ pages/students/2016/dominik_nagy/README.md | 2 +- .../students/{2017 => 2016}/ediz_morochovic/README.md | 2 +- pages/students/2016/jakub_maruniak/README.md | 4 ++-- pages/students/2016/jan_holp/README.md | 8 ++++++++ pages/students/2016/lukas_pokryvka/README.md | 11 +++++++++-- pages/students/2016/maros_harahus/README.md | 4 ++-- pages/students/2016/patrik_pavlisin/README.md | 8 ++++++++ pages/students/2016/tomas_kucharik/README.md | 2 +- pages/students/2017/dmytro_ushatenko/README.md | 2 +- pages/students/2017/martin_jancura/README.md | 2 +- pages/students/2017/stanislav_matsunych/README.md | 2 +- pages/students/2017/than_trung_thanh/README.md | 2 +- 13 files changed, 44 insertions(+), 13 deletions(-) rename pages/students/{2017 => 2016}/ediz_morochovic/README.md (98%) diff --git a/pages/students/2016/darius_lindvai/README.md b/pages/students/2016/darius_lindvai/README.md index cee71ed2a..b63d984a8 100644 --- a/pages/students/2016/darius_lindvai/README.md +++ b/pages/students/2016/darius_lindvai/README.md @@ -1,3 +1,11 @@ +--- +title: Dárius Lindvai +published: true +taxonomy: + category: [dp2021,bp2019] + tag: [nn,interpunction,nlp] + author: Daniel Hladek +--- # Dárius Lindvai Rok začiatku štúdia: 2016 diff --git a/pages/students/2016/dominik_nagy/README.md b/pages/students/2016/dominik_nagy/README.md index 6d2a97c1a..ce65a8b25 100644 --- a/pages/students/2016/dominik_nagy/README.md +++ b/pages/students/2016/dominik_nagy/README.md @@ -2,7 +2,7 @@ title: Dominik Nagy published: true taxonomy: - category: [2016,dp2021] + category: [dp2021,bp2019] tag: [translation,nlp] author: Daniel Hladek --- diff --git a/pages/students/2017/ediz_morochovic/README.md b/pages/students/2016/ediz_morochovic/README.md similarity index 98% rename from pages/students/2017/ediz_morochovic/README.md rename to pages/students/2016/ediz_morochovic/README.md index 001f38628..cc4b757f9 100644 --- a/pages/students/2017/ediz_morochovic/README.md +++ b/pages/students/2016/ediz_morochovic/README.md @@ -2,7 +2,7 @@ title: Ediz Morochovič published: true taxonomy: - category: [2016,bp2019] + category: [bp2019] tag: [ner,nlp] author: Daniel Hladek --- diff --git a/pages/students/2016/jakub_maruniak/README.md b/pages/students/2016/jakub_maruniak/README.md index 2a48b59c9..070e98200 100644 --- a/pages/students/2016/jakub_maruniak/README.md +++ b/pages/students/2016/jakub_maruniak/README.md @@ -2,8 +2,8 @@ title: Jakub Maruniak published: true taxonomy: - category: [2016,dp2021] - tag: [spacy,ner,mnlp] + category: [dp2021,bp2019] + tag: [spacy,ner,nlp] author: Daniel Hladek --- # Jakub Maruniak diff --git a/pages/students/2016/jan_holp/README.md b/pages/students/2016/jan_holp/README.md index b1b5bfc3e..ea8995bfb 100644 --- a/pages/students/2016/jan_holp/README.md +++ b/pages/students/2016/jan_holp/README.md @@ -1,3 +1,11 @@ +--- +title: Ján Holp +published: true +taxonomy: + category: [dp2021,bp2019] + tag: [ir,nlp] + author: Daniel Hladek +--- # Ján Holp *Rok začiatku štúdia*: 2016 diff --git a/pages/students/2016/lukas_pokryvka/README.md b/pages/students/2016/lukas_pokryvka/README.md index ae6178a3c..593c9db20 100644 --- a/pages/students/2016/lukas_pokryvka/README.md +++ b/pages/students/2016/lukas_pokryvka/README.md @@ -1,4 +1,11 @@ - +--- +title: Lukáš Pokrývka +published: true +taxonomy: + category: [dp2021,bp2019] + tag: [gpu,cloud] + author: Daniel Hladek +--- # Lukáš Pokrývka *Rok začiatku štúdia:* 2016 @@ -125,4 +132,4 @@ Keďže som mal problém skript s plným korpusom spustiť na školskom serveri, *2. Natrénovanie slovenského modelu pomocou knižnice fasttext* -Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo. \ No newline at end of file +Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo. diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 2fbc3cac3..6c59b3255 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -2,7 +2,7 @@ title: Maroš Harahus published: true taxonomy: - category: [2016,dp2021] + category: [dp2021,bp2019] tag: [spacy,nlp] author: Daniel Hladek --- @@ -13,7 +13,7 @@ taxonomy: Stretnutie 25.9.2020 Stav: -- chyba pri použití príkazu pretrain, kotrá sa objavila s novou verziou Spacy +- chyba pri použití príkazu pretrain, ktorá sa objavila s novou verziou Spacy Úlohy do ďalšieho stretnutia: - pokračovať so starou verziou Spacy (2.2) diff --git a/pages/students/2016/patrik_pavlisin/README.md b/pages/students/2016/patrik_pavlisin/README.md index 22aac55a0..57bca6685 100644 --- a/pages/students/2016/patrik_pavlisin/README.md +++ b/pages/students/2016/patrik_pavlisin/README.md @@ -1,3 +1,11 @@ +--- +title: Patrik Pavlišin +published: true +taxonomy: + category: [dp2021,bp2019] + tag: [translation,nlp] + author: Daniel Hladek +--- # Patrik Pavlišin ## Bakalárksa práca 2019 diff --git a/pages/students/2016/tomas_kucharik/README.md b/pages/students/2016/tomas_kucharik/README.md index 2fb090e18..9c10c230f 100644 --- a/pages/students/2016/tomas_kucharik/README.md +++ b/pages/students/2016/tomas_kucharik/README.md @@ -2,7 +2,7 @@ title: Tomáš Kuchárik published: true taxonomy: - category: [2016,dp2021] + category: [dp2021] tag: [annotation,question_answer,nlp] author: Daniel Hladek --- diff --git a/pages/students/2017/dmytro_ushatenko/README.md b/pages/students/2017/dmytro_ushatenko/README.md index cbbfe2844..c64a3e06e 100644 --- a/pages/students/2017/dmytro_ushatenko/README.md +++ b/pages/students/2017/dmytro_ushatenko/README.md @@ -2,7 +2,7 @@ title: Dmytro Ushatenko published: true taxonomy: - category: [2017,bp2020] + category: [bp2020] tag: [chatobot,demo,nlp] author: Daniel Hladek --- diff --git a/pages/students/2017/martin_jancura/README.md b/pages/students/2017/martin_jancura/README.md index 835d4c409..45ae61773 100644 --- a/pages/students/2017/martin_jancura/README.md +++ b/pages/students/2017/martin_jancura/README.md @@ -2,7 +2,7 @@ title: Martin Jancura published: true taxonomy: - category: [2017,bp2021] + category: [bp2021] tag: [demo,nlp] author: Daniel Hladek --- diff --git a/pages/students/2017/stanislav_matsunych/README.md b/pages/students/2017/stanislav_matsunych/README.md index 2c21372be..3591d16c8 100644 --- a/pages/students/2017/stanislav_matsunych/README.md +++ b/pages/students/2017/stanislav_matsunych/README.md @@ -2,7 +2,7 @@ title: Stanislav Matsunych published: true taxonomy: - category: [2017,bp2020] + category: [bp2020] tag: [nn,lm,nlp] author: Daniel Hladek --- diff --git a/pages/students/2017/than_trung_thanh/README.md b/pages/students/2017/than_trung_thanh/README.md index 6397b0a55..9a62f19b4 100644 --- a/pages/students/2017/than_trung_thanh/README.md +++ b/pages/students/2017/than_trung_thanh/README.md @@ -2,7 +2,7 @@ title: Than Trung Thanh published: true taxonomy: - category: [2017,bp2021] + category: [bp2021] tag: [demo,nlp] author: Daniel Hladek ---