Compare commits

..

2 Commits

Author SHA1 Message Date
90843ce241 zz 2020-10-01 15:46:14 +02:00
9129272c9c zz 2020-10-01 15:33:21 +02:00
17 changed files with 102 additions and 62 deletions

View File

@ -1,3 +1,11 @@
---
title: Dárius Lindvai
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [nn,interpunction,nlp]
author: Daniel Hladek
---
# Dárius Lindvai
Rok začiatku štúdia: 2016

View File

@ -1,3 +1,11 @@
---
title: Dominik Nagy
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [translation,nlp]
author: Daniel Hladek
---
# Dominik Nagy
*Rok začiatku štúdia*: 2016

View File

@ -1,3 +1,11 @@
---
title: Ediz Morochovič
published: true
taxonomy:
category: [bp2019]
tag: [ner,nlp]
author: Daniel Hladek
---
# Ediz Morochovič
Rok začiatku štúdia: 2016

View File

@ -1,7 +1,14 @@
---
title: Jakub Maruniak
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [spacy,ner,nlp]
author: Daniel Hladek
---
# Jakub Maruniak
*Rok začiatku štúdia*: 2016
## Diplomový projekt 2

View File

@ -1,3 +1,11 @@
---
title: Ján Holp
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [ir,nlp]
author: Daniel Hladek
---
# Ján Holp
*Rok začiatku štúdia*: 2016

View File

@ -1,4 +1,11 @@
---
title: Lukáš Pokrývka
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [gpu,cloud]
author: Daniel Hladek
---
# Lukáš Pokrývka
*Rok začiatku štúdia:* 2016
@ -125,4 +132,4 @@ Keďže som mal problém skript s plným korpusom spustiť na školskom serveri,
*2. Natrénovanie slovenského modelu pomocou knižnice fasttext*
Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.
Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.

View File

@ -1,3 +1,11 @@
---
title: Maroš Harahus
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [spacy,nlp]
author: Daniel Hladek
---
# Maroš Harahus
## Diplomový projekt 2 2020
@ -5,7 +13,7 @@
Stretnutie 25.9.2020
Stav:
- chyba pri použití príkazu pretrain, kotrá sa objavila s novou verziou Spacy
- chyba pri použití príkazu pretrain, ktorá sa objavila s novou verziou Spacy
Úlohy do ďalšieho stretnutia:
- pokračovať so starou verziou Spacy (2.2)

View File

@ -1,3 +1,11 @@
---
title: Patrik Pavlišin
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [translation,nlp]
author: Daniel Hladek
---
# Patrik Pavlišin
## Bakalárksa práca 2019

View File

@ -1,3 +1,11 @@
---
title: Tomáš Kuchárik
published: true
taxonomy:
category: [dp2021]
tag: [annotation,question_answer,nlp]
author: Daniel Hladek
---
# Tomáš Kuchárik
(študent KPI)

View File

@ -1,3 +1,11 @@
---
title: Dmytro Ushatenko
published: true
taxonomy:
category: [bp2020]
tag: [chatobot,demo,nlp]
author: Daniel Hladek
---
# Dmytro Ushatenko
## Bakalárska práca 2020
@ -37,4 +45,4 @@ Pomôcka pre začínajúcich študentov:
V druom semestri:
- pripravíte si celé demo
- dookončíte prácu
- dookončíte prácu

View File

@ -1,8 +1,8 @@
---
title: Than Trung Thanh
title: Martin Jancura
published: true
taxonomy:
category: [2017,bp2021]
category: [bp2021]
tag: [demo,nlp]
author: Daniel Hladek
---

View File

@ -1 +0,0 @@
# Peter Maľar

View File

@ -1,3 +1,11 @@
---
title: Stanislav Matsunych
published: true
taxonomy:
category: [bp2020]
tag: [nn,lm,nlp]
author: Daniel Hladek
---
# Stanislav Matsunych
## Bakalárska práca 2019

View File

@ -2,7 +2,7 @@
title: Than Trung Thanh
published: true
taxonomy:
category: [2017,bp2021]
category: [bp2021]
tag: [demo,nlp]
author: Daniel Hladek
---

View File

@ -1,37 +0,0 @@
---
title: Vzorový študent 2017
taxonomy:
type: student
start_year: 2017
teacher: hladek
---
# Vzorový študent
Šablónu skopírujte do Vášho osobného profilu. Do hlavného nadpisu dajte Vaše meno. Nahraďte obyčajný text podľa inštrukcií, zvýraznený text a nadpisy nechajte ako sú.
*Rok začiatku štúdia*: uveďte rok začiatku štúdia.
Môžte pridať odkaz na Vašu osobnú stránku, fotografiu alebo zoznam Vašich osodných alebo odborných záujmov.
## Bakalárska práca 2019
*Názov bakalárskej práce*: Napíšte názov bakalárskej práce
*Meno vedúceho*: meno vedúceho
*Zadanie bakalárskej práce*: Tu napíšte zadanie Vašej bakalárskej práce
## Bakalársky projekt 2019
*Písomná práca* : [Názov písomnej práce](./bakalarsky_projekt) tu doplnte odkaz na Váš vypracovaný text.
*Výstupy bakalárskeho projektu*:
- odkaz na zdrojové kódy, ak sú nejaké
*Poznámky*:
- poznámky k vypracovaniu projektu (od vedúceho alebo Vaše), môžte ich dať aj ako podnadpis.
- užitočné odkazy, literatúra, nástroje

View File

@ -1,16 +0,0 @@
# Vzorový článok z Bakalárskeho projektu
Vysvetlite:
- na akej téme pracujete
- aký problém riešite
- aké prostriedky na riešenie sú k dispozícii
- aké prostriedky ste si zvolili na riešenie
- aké dáta ste spracovávali
- ako riešite zadaný problém
- aké výsledky ste dosiahli
Uveďte zoznam relevantnej odbornej literatúry
Uveďte aj odkaz na zdrojové kódy ktoré ste vytvorili

View File

@ -1 +1,9 @@
---
title: Ondrej Megela
published: true
taxonomy:
category: [2018,bp2021]
tag: [nlp]
author: Daniel Hladek
---
# Ondrej Megela