forked from KEMT/zpwiki
zz
This commit is contained in:
parent
9129272c9c
commit
90843ce241
@ -1,3 +1,11 @@
|
|||||||
|
---
|
||||||
|
title: Dárius Lindvai
|
||||||
|
published: true
|
||||||
|
taxonomy:
|
||||||
|
category: [dp2021,bp2019]
|
||||||
|
tag: [nn,interpunction,nlp]
|
||||||
|
author: Daniel Hladek
|
||||||
|
---
|
||||||
# Dárius Lindvai
|
# Dárius Lindvai
|
||||||
Rok začiatku štúdia: 2016
|
Rok začiatku štúdia: 2016
|
||||||
|
|
||||||
|
@ -2,7 +2,7 @@
|
|||||||
title: Dominik Nagy
|
title: Dominik Nagy
|
||||||
published: true
|
published: true
|
||||||
taxonomy:
|
taxonomy:
|
||||||
category: [2016,dp2021]
|
category: [dp2021,bp2019]
|
||||||
tag: [translation,nlp]
|
tag: [translation,nlp]
|
||||||
author: Daniel Hladek
|
author: Daniel Hladek
|
||||||
---
|
---
|
||||||
|
@ -2,7 +2,7 @@
|
|||||||
title: Ediz Morochovič
|
title: Ediz Morochovič
|
||||||
published: true
|
published: true
|
||||||
taxonomy:
|
taxonomy:
|
||||||
category: [2016,bp2019]
|
category: [bp2019]
|
||||||
tag: [ner,nlp]
|
tag: [ner,nlp]
|
||||||
author: Daniel Hladek
|
author: Daniel Hladek
|
||||||
---
|
---
|
@ -2,8 +2,8 @@
|
|||||||
title: Jakub Maruniak
|
title: Jakub Maruniak
|
||||||
published: true
|
published: true
|
||||||
taxonomy:
|
taxonomy:
|
||||||
category: [2016,dp2021]
|
category: [dp2021,bp2019]
|
||||||
tag: [spacy,ner,mnlp]
|
tag: [spacy,ner,nlp]
|
||||||
author: Daniel Hladek
|
author: Daniel Hladek
|
||||||
---
|
---
|
||||||
# Jakub Maruniak
|
# Jakub Maruniak
|
||||||
|
@ -1,3 +1,11 @@
|
|||||||
|
---
|
||||||
|
title: Ján Holp
|
||||||
|
published: true
|
||||||
|
taxonomy:
|
||||||
|
category: [dp2021,bp2019]
|
||||||
|
tag: [ir,nlp]
|
||||||
|
author: Daniel Hladek
|
||||||
|
---
|
||||||
# Ján Holp
|
# Ján Holp
|
||||||
|
|
||||||
*Rok začiatku štúdia*: 2016
|
*Rok začiatku štúdia*: 2016
|
||||||
|
@ -1,4 +1,11 @@
|
|||||||
|
---
|
||||||
|
title: Lukáš Pokrývka
|
||||||
|
published: true
|
||||||
|
taxonomy:
|
||||||
|
category: [dp2021,bp2019]
|
||||||
|
tag: [gpu,cloud]
|
||||||
|
author: Daniel Hladek
|
||||||
|
---
|
||||||
# Lukáš Pokrývka
|
# Lukáš Pokrývka
|
||||||
|
|
||||||
*Rok začiatku štúdia:* 2016
|
*Rok začiatku štúdia:* 2016
|
||||||
@ -125,4 +132,4 @@ Keďže som mal problém skript s plným korpusom spustiť na školskom serveri,
|
|||||||
|
|
||||||
*2. Natrénovanie slovenského modelu pomocou knižnice fasttext*
|
*2. Natrénovanie slovenského modelu pomocou knižnice fasttext*
|
||||||
|
|
||||||
Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.
|
Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.
|
||||||
|
@ -2,7 +2,7 @@
|
|||||||
title: Maroš Harahus
|
title: Maroš Harahus
|
||||||
published: true
|
published: true
|
||||||
taxonomy:
|
taxonomy:
|
||||||
category: [2016,dp2021]
|
category: [dp2021,bp2019]
|
||||||
tag: [spacy,nlp]
|
tag: [spacy,nlp]
|
||||||
author: Daniel Hladek
|
author: Daniel Hladek
|
||||||
---
|
---
|
||||||
@ -13,7 +13,7 @@ taxonomy:
|
|||||||
Stretnutie 25.9.2020
|
Stretnutie 25.9.2020
|
||||||
|
|
||||||
Stav:
|
Stav:
|
||||||
- chyba pri použití príkazu pretrain, kotrá sa objavila s novou verziou Spacy
|
- chyba pri použití príkazu pretrain, ktorá sa objavila s novou verziou Spacy
|
||||||
|
|
||||||
Úlohy do ďalšieho stretnutia:
|
Úlohy do ďalšieho stretnutia:
|
||||||
- pokračovať so starou verziou Spacy (2.2)
|
- pokračovať so starou verziou Spacy (2.2)
|
||||||
|
@ -1,3 +1,11 @@
|
|||||||
|
---
|
||||||
|
title: Patrik Pavlišin
|
||||||
|
published: true
|
||||||
|
taxonomy:
|
||||||
|
category: [dp2021,bp2019]
|
||||||
|
tag: [translation,nlp]
|
||||||
|
author: Daniel Hladek
|
||||||
|
---
|
||||||
# Patrik Pavlišin
|
# Patrik Pavlišin
|
||||||
|
|
||||||
## Bakalárksa práca 2019
|
## Bakalárksa práca 2019
|
||||||
|
@ -2,7 +2,7 @@
|
|||||||
title: Tomáš Kuchárik
|
title: Tomáš Kuchárik
|
||||||
published: true
|
published: true
|
||||||
taxonomy:
|
taxonomy:
|
||||||
category: [2016,dp2021]
|
category: [dp2021]
|
||||||
tag: [annotation,question_answer,nlp]
|
tag: [annotation,question_answer,nlp]
|
||||||
author: Daniel Hladek
|
author: Daniel Hladek
|
||||||
---
|
---
|
||||||
|
@ -2,7 +2,7 @@
|
|||||||
title: Dmytro Ushatenko
|
title: Dmytro Ushatenko
|
||||||
published: true
|
published: true
|
||||||
taxonomy:
|
taxonomy:
|
||||||
category: [2017,bp2020]
|
category: [bp2020]
|
||||||
tag: [chatobot,demo,nlp]
|
tag: [chatobot,demo,nlp]
|
||||||
author: Daniel Hladek
|
author: Daniel Hladek
|
||||||
---
|
---
|
||||||
|
@ -2,7 +2,7 @@
|
|||||||
title: Martin Jancura
|
title: Martin Jancura
|
||||||
published: true
|
published: true
|
||||||
taxonomy:
|
taxonomy:
|
||||||
category: [2017,bp2021]
|
category: [bp2021]
|
||||||
tag: [demo,nlp]
|
tag: [demo,nlp]
|
||||||
author: Daniel Hladek
|
author: Daniel Hladek
|
||||||
---
|
---
|
||||||
|
@ -2,7 +2,7 @@
|
|||||||
title: Stanislav Matsunych
|
title: Stanislav Matsunych
|
||||||
published: true
|
published: true
|
||||||
taxonomy:
|
taxonomy:
|
||||||
category: [2017,bp2020]
|
category: [bp2020]
|
||||||
tag: [nn,lm,nlp]
|
tag: [nn,lm,nlp]
|
||||||
author: Daniel Hladek
|
author: Daniel Hladek
|
||||||
---
|
---
|
||||||
|
@ -2,7 +2,7 @@
|
|||||||
title: Than Trung Thanh
|
title: Than Trung Thanh
|
||||||
published: true
|
published: true
|
||||||
taxonomy:
|
taxonomy:
|
||||||
category: [2017,bp2021]
|
category: [bp2021]
|
||||||
tag: [demo,nlp]
|
tag: [demo,nlp]
|
||||||
author: Daniel Hladek
|
author: Daniel Hladek
|
||||||
---
|
---
|
||||||
|
Loading…
Reference in New Issue
Block a user