forked from KEMT/zpwiki
zz
This commit is contained in:
parent
9129272c9c
commit
90843ce241
@ -1,3 +1,11 @@
|
||||
---
|
||||
title: Dárius Lindvai
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [dp2021,bp2019]
|
||||
tag: [nn,interpunction,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
# Dárius Lindvai
|
||||
Rok začiatku štúdia: 2016
|
||||
|
||||
|
@ -2,7 +2,7 @@
|
||||
title: Dominik Nagy
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [2016,dp2021]
|
||||
category: [dp2021,bp2019]
|
||||
tag: [translation,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
@ -2,7 +2,7 @@
|
||||
title: Ediz Morochovič
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [2016,bp2019]
|
||||
category: [bp2019]
|
||||
tag: [ner,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
@ -2,8 +2,8 @@
|
||||
title: Jakub Maruniak
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [2016,dp2021]
|
||||
tag: [spacy,ner,mnlp]
|
||||
category: [dp2021,bp2019]
|
||||
tag: [spacy,ner,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
# Jakub Maruniak
|
||||
|
@ -1,3 +1,11 @@
|
||||
---
|
||||
title: Ján Holp
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [dp2021,bp2019]
|
||||
tag: [ir,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
# Ján Holp
|
||||
|
||||
*Rok začiatku štúdia*: 2016
|
||||
|
@ -1,4 +1,11 @@
|
||||
|
||||
---
|
||||
title: Lukáš Pokrývka
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [dp2021,bp2019]
|
||||
tag: [gpu,cloud]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
# Lukáš Pokrývka
|
||||
|
||||
*Rok začiatku štúdia:* 2016
|
||||
@ -125,4 +132,4 @@ Keďže som mal problém skript s plným korpusom spustiť na školskom serveri,
|
||||
|
||||
*2. Natrénovanie slovenského modelu pomocou knižnice fasttext*
|
||||
|
||||
Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.
|
||||
Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.
|
||||
|
@ -2,7 +2,7 @@
|
||||
title: Maroš Harahus
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [2016,dp2021]
|
||||
category: [dp2021,bp2019]
|
||||
tag: [spacy,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
@ -13,7 +13,7 @@ taxonomy:
|
||||
Stretnutie 25.9.2020
|
||||
|
||||
Stav:
|
||||
- chyba pri použití príkazu pretrain, kotrá sa objavila s novou verziou Spacy
|
||||
- chyba pri použití príkazu pretrain, ktorá sa objavila s novou verziou Spacy
|
||||
|
||||
Úlohy do ďalšieho stretnutia:
|
||||
- pokračovať so starou verziou Spacy (2.2)
|
||||
|
@ -1,3 +1,11 @@
|
||||
---
|
||||
title: Patrik Pavlišin
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [dp2021,bp2019]
|
||||
tag: [translation,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
# Patrik Pavlišin
|
||||
|
||||
## Bakalárksa práca 2019
|
||||
|
@ -2,7 +2,7 @@
|
||||
title: Tomáš Kuchárik
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [2016,dp2021]
|
||||
category: [dp2021]
|
||||
tag: [annotation,question_answer,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
@ -2,7 +2,7 @@
|
||||
title: Dmytro Ushatenko
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [2017,bp2020]
|
||||
category: [bp2020]
|
||||
tag: [chatobot,demo,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
@ -2,7 +2,7 @@
|
||||
title: Martin Jancura
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [2017,bp2021]
|
||||
category: [bp2021]
|
||||
tag: [demo,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
@ -2,7 +2,7 @@
|
||||
title: Stanislav Matsunych
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [2017,bp2020]
|
||||
category: [bp2020]
|
||||
tag: [nn,lm,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
@ -2,7 +2,7 @@
|
||||
title: Than Trung Thanh
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [2017,bp2021]
|
||||
category: [bp2021]
|
||||
tag: [demo,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
Loading…
Reference in New Issue
Block a user