diff --git a/pages/students/2016/darius_lindvai/README.md b/pages/students/2016/darius_lindvai/README.md index cee71ed2a2..b63d984a80 100644 --- a/pages/students/2016/darius_lindvai/README.md +++ b/pages/students/2016/darius_lindvai/README.md @@ -1,3 +1,11 @@ +--- +title: Dárius Lindvai +published: true +taxonomy: + category: [dp2021,bp2019] + tag: [nn,interpunction,nlp] + author: Daniel Hladek +--- # Dárius Lindvai Rok začiatku štúdia: 2016 diff --git a/pages/students/2016/dominik_nagy/README.md b/pages/students/2016/dominik_nagy/README.md index 6d2a97c1ad..ce65a8b25f 100644 --- a/pages/students/2016/dominik_nagy/README.md +++ b/pages/students/2016/dominik_nagy/README.md @@ -2,7 +2,7 @@ title: Dominik Nagy published: true taxonomy: - category: [2016,dp2021] + category: [dp2021,bp2019] tag: [translation,nlp] author: Daniel Hladek --- diff --git a/pages/students/2017/ediz_morochovic/README.md b/pages/students/2016/ediz_morochovic/README.md similarity index 98% rename from pages/students/2017/ediz_morochovic/README.md rename to pages/students/2016/ediz_morochovic/README.md index 001f386288..cc4b757f95 100644 --- a/pages/students/2017/ediz_morochovic/README.md +++ b/pages/students/2016/ediz_morochovic/README.md @@ -2,7 +2,7 @@ title: Ediz Morochovič published: true taxonomy: - category: [2016,bp2019] + category: [bp2019] tag: [ner,nlp] author: Daniel Hladek --- diff --git a/pages/students/2016/jakub_maruniak/README.md b/pages/students/2016/jakub_maruniak/README.md index 2a48b59c92..070e982004 100644 --- a/pages/students/2016/jakub_maruniak/README.md +++ b/pages/students/2016/jakub_maruniak/README.md @@ -2,8 +2,8 @@ title: Jakub Maruniak published: true taxonomy: - category: [2016,dp2021] - tag: [spacy,ner,mnlp] + category: [dp2021,bp2019] + tag: [spacy,ner,nlp] author: Daniel Hladek --- # Jakub Maruniak diff --git a/pages/students/2016/jan_holp/README.md b/pages/students/2016/jan_holp/README.md index b1b5bfc3ee..ea8995bfb4 100644 --- a/pages/students/2016/jan_holp/README.md +++ b/pages/students/2016/jan_holp/README.md @@ -1,3 +1,11 @@ +--- +title: Ján Holp +published: true +taxonomy: + category: [dp2021,bp2019] + tag: [ir,nlp] + author: Daniel Hladek +--- # Ján Holp *Rok začiatku štúdia*: 2016 diff --git a/pages/students/2016/lukas_pokryvka/README.md b/pages/students/2016/lukas_pokryvka/README.md index ae6178a3c8..593c9db20c 100644 --- a/pages/students/2016/lukas_pokryvka/README.md +++ b/pages/students/2016/lukas_pokryvka/README.md @@ -1,4 +1,11 @@ - +--- +title: Lukáš Pokrývka +published: true +taxonomy: + category: [dp2021,bp2019] + tag: [gpu,cloud] + author: Daniel Hladek +--- # Lukáš Pokrývka *Rok začiatku štúdia:* 2016 @@ -125,4 +132,4 @@ Keďže som mal problém skript s plným korpusom spustiť na školskom serveri, *2. Natrénovanie slovenského modelu pomocou knižnice fasttext* -Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo. \ No newline at end of file +Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo. diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index 2fbc3cac34..6c59b32554 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -2,7 +2,7 @@ title: Maroš Harahus published: true taxonomy: - category: [2016,dp2021] + category: [dp2021,bp2019] tag: [spacy,nlp] author: Daniel Hladek --- @@ -13,7 +13,7 @@ taxonomy: Stretnutie 25.9.2020 Stav: -- chyba pri použití príkazu pretrain, kotrá sa objavila s novou verziou Spacy +- chyba pri použití príkazu pretrain, ktorá sa objavila s novou verziou Spacy Úlohy do ďalšieho stretnutia: - pokračovať so starou verziou Spacy (2.2) diff --git a/pages/students/2016/patrik_pavlisin/README.md b/pages/students/2016/patrik_pavlisin/README.md index 22aac55a09..57bca66855 100644 --- a/pages/students/2016/patrik_pavlisin/README.md +++ b/pages/students/2016/patrik_pavlisin/README.md @@ -1,3 +1,11 @@ +--- +title: Patrik Pavlišin +published: true +taxonomy: + category: [dp2021,bp2019] + tag: [translation,nlp] + author: Daniel Hladek +--- # Patrik Pavlišin ## Bakalárksa práca 2019 diff --git a/pages/students/2016/tomas_kucharik/README.md b/pages/students/2016/tomas_kucharik/README.md index 2fb090e187..9c10c230f4 100644 --- a/pages/students/2016/tomas_kucharik/README.md +++ b/pages/students/2016/tomas_kucharik/README.md @@ -2,7 +2,7 @@ title: Tomáš Kuchárik published: true taxonomy: - category: [2016,dp2021] + category: [dp2021] tag: [annotation,question_answer,nlp] author: Daniel Hladek --- diff --git a/pages/students/2017/dmytro_ushatenko/README.md b/pages/students/2017/dmytro_ushatenko/README.md index cbbfe2844c..c64a3e06e4 100644 --- a/pages/students/2017/dmytro_ushatenko/README.md +++ b/pages/students/2017/dmytro_ushatenko/README.md @@ -2,7 +2,7 @@ title: Dmytro Ushatenko published: true taxonomy: - category: [2017,bp2020] + category: [bp2020] tag: [chatobot,demo,nlp] author: Daniel Hladek --- diff --git a/pages/students/2017/martin_jancura/README.md b/pages/students/2017/martin_jancura/README.md index 835d4c409a..45ae617735 100644 --- a/pages/students/2017/martin_jancura/README.md +++ b/pages/students/2017/martin_jancura/README.md @@ -2,7 +2,7 @@ title: Martin Jancura published: true taxonomy: - category: [2017,bp2021] + category: [bp2021] tag: [demo,nlp] author: Daniel Hladek --- diff --git a/pages/students/2017/stanislav_matsunych/README.md b/pages/students/2017/stanislav_matsunych/README.md index 2c21372bea..3591d16c81 100644 --- a/pages/students/2017/stanislav_matsunych/README.md +++ b/pages/students/2017/stanislav_matsunych/README.md @@ -2,7 +2,7 @@ title: Stanislav Matsunych published: true taxonomy: - category: [2017,bp2020] + category: [bp2020] tag: [nn,lm,nlp] author: Daniel Hladek --- diff --git a/pages/students/2017/than_trung_thanh/README.md b/pages/students/2017/than_trung_thanh/README.md index 6397b0a556..9a62f19b4e 100644 --- a/pages/students/2017/than_trung_thanh/README.md +++ b/pages/students/2017/than_trung_thanh/README.md @@ -2,7 +2,7 @@ title: Than Trung Thanh published: true taxonomy: - category: [2017,bp2021] + category: [bp2021] tag: [demo,nlp] author: Daniel Hladek ---