This commit is contained in:
Daniel Hládek 2020-10-01 15:46:14 +02:00
parent 9129272c9c
commit 90843ce241
13 changed files with 44 additions and 13 deletions

View File

@ -1,3 +1,11 @@
---
title: Dárius Lindvai
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [nn,interpunction,nlp]
author: Daniel Hladek
---
# Dárius Lindvai
Rok začiatku štúdia: 2016

View File

@ -2,7 +2,7 @@
title: Dominik Nagy
published: true
taxonomy:
category: [2016,dp2021]
category: [dp2021,bp2019]
tag: [translation,nlp]
author: Daniel Hladek
---

View File

@ -2,7 +2,7 @@
title: Ediz Morochovič
published: true
taxonomy:
category: [2016,bp2019]
category: [bp2019]
tag: [ner,nlp]
author: Daniel Hladek
---

View File

@ -2,8 +2,8 @@
title: Jakub Maruniak
published: true
taxonomy:
category: [2016,dp2021]
tag: [spacy,ner,mnlp]
category: [dp2021,bp2019]
tag: [spacy,ner,nlp]
author: Daniel Hladek
---
# Jakub Maruniak

View File

@ -1,3 +1,11 @@
---
title: Ján Holp
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [ir,nlp]
author: Daniel Hladek
---
# Ján Holp
*Rok začiatku štúdia*: 2016

View File

@ -1,4 +1,11 @@
---
title: Lukáš Pokrývka
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [gpu,cloud]
author: Daniel Hladek
---
# Lukáš Pokrývka
*Rok začiatku štúdia:* 2016
@ -125,4 +132,4 @@ Keďže som mal problém skript s plným korpusom spustiť na školskom serveri,
*2. Natrénovanie slovenského modelu pomocou knižnice fasttext*
Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.
Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.

View File

@ -2,7 +2,7 @@
title: Maroš Harahus
published: true
taxonomy:
category: [2016,dp2021]
category: [dp2021,bp2019]
tag: [spacy,nlp]
author: Daniel Hladek
---
@ -13,7 +13,7 @@ taxonomy:
Stretnutie 25.9.2020
Stav:
- chyba pri použití príkazu pretrain, kotrá sa objavila s novou verziou Spacy
- chyba pri použití príkazu pretrain, ktorá sa objavila s novou verziou Spacy
Úlohy do ďalšieho stretnutia:
- pokračovať so starou verziou Spacy (2.2)

View File

@ -1,3 +1,11 @@
---
title: Patrik Pavlišin
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [translation,nlp]
author: Daniel Hladek
---
# Patrik Pavlišin
## Bakalárksa práca 2019

View File

@ -2,7 +2,7 @@
title: Tomáš Kuchárik
published: true
taxonomy:
category: [2016,dp2021]
category: [dp2021]
tag: [annotation,question_answer,nlp]
author: Daniel Hladek
---

View File

@ -2,7 +2,7 @@
title: Dmytro Ushatenko
published: true
taxonomy:
category: [2017,bp2020]
category: [bp2020]
tag: [chatobot,demo,nlp]
author: Daniel Hladek
---

View File

@ -2,7 +2,7 @@
title: Martin Jancura
published: true
taxonomy:
category: [2017,bp2021]
category: [bp2021]
tag: [demo,nlp]
author: Daniel Hladek
---

View File

@ -2,7 +2,7 @@
title: Stanislav Matsunych
published: true
taxonomy:
category: [2017,bp2020]
category: [bp2020]
tag: [nn,lm,nlp]
author: Daniel Hladek
---

View File

@ -2,7 +2,7 @@
title: Than Trung Thanh
published: true
taxonomy:
category: [2017,bp2021]
category: [bp2021]
tag: [demo,nlp]
author: Daniel Hladek
---