zpwiki/pages/students/2016/lukas_pokryvka/README.md

---
title: Lukáš Pokrývka
published: true
taxonomy:
    category: [dp2021,bp2019]
    tag: [gpu,cloud]
    author: Daniel Hladek
---
# Lukáš Pokrývka

*Rok začiatku štúdia:* 2016

## Diplomový projekt 2 2020

Ciele na semester:
- Pripraviť tabuľku s výsledkami experimentov v rôznych konfuguráciách
- Napísať stručný report (cca 8 strán) vo forme článku.

Zásobník úloh :

- Ten istý scenár spustiť v rôznych podmienkach a zmerať čas.
    - Trénovanie na jednej karte na jednom stroji
        - tesla
        - xavier
    - Trénovanie na dvoch kartách na jednom stroji 
        - idoc DONE
        - titan
    - možno trénovanie na 4 kartách na jednom
        - quadra
    - *Trénovanie na dvoch kartách na dvoch strojoch pomocou NCCL (idoc, tesla)*
    - možno trénovanie na 2 kartách na dvoch strojoch (quadra plus idoc).

Virtuálne stretnutie 27.10.2020

Stav:

- Trénovanie na procesore, na 1 GPU, na 2 GPU na idoc
- Príprava podkladov na trénovanie na dvoch strojoch pomocou Pytorch.
- Vytvorený prístup na teslu a xavier.

Úlohy na ďďalšie stretnutie:
- Štdúdium odbornej literatúry a vypracovanie poznámok. 
- Pokračovať v otvorených úlohách zo zásobníka
- Vypracované skripty uložiť na GIT repozitár
- vytvorte repozitár dp2021

Stretnutie 2.10.2020

Urobené https://github.com/LukasPokryvka/YELP-on-GPU

- demonštračná úloha pre automatické hodnotenie reštaurácií na základe recenzie v anglickom jazyku, dátová sada yelp.
- preštudovaná kniha NLP with Pytorch, NLP in Action.
- trénovanie na NVIDIA RTX2070 Super.

Úlohy do ďalšieho stretnutia:
- Prejsť odborné publikácie na tému "benchmarking" a "parallel training of neural networks".
    - Zapísať si relevantné bibliografické odkazy.
    - Zapísať poznámky
    - Použiť index scopus alebo scholar
- Trénovanie na jednej karte na jednom stroji
        - tesla.fei.tuke.sk
- Trénovanie na dvoch kartách na jednom stroji - zistite čas trénovania a spotrebu pamäte.
        - idoc


## Diplomový projekt 1 2020

Paralelné trénovanie neurónových sietí pomocou knižnice Pytorch.
Úlohy na semester:

- podrobne si naštudovať vybranú metódu trénovania neurónových sietí
- identifikujte možný spôsob paralelizácie
- natrénujte zvolený model metódou paralelizácie

Revízia 11.6:

- Prebieha nákup https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-agx-xavier/
- zatiaľ NCCL nefunguje na Jetson Nano, funguje na Jetson Xavier?
- Spustenie paralelného trénovania PyTorch https://pytorch.org/docs/stable/distributed.html#launch-utility
- Spustenie paralelného trénovania Fairseq https://fairseq.readthedocs.io/en/latest/getting_started.html#distributed-training


Revízia 13.5:

Pozrite si odkazy na paralelné trénovanie:

- Knižnica pre neuronové siete podobná TensorFlow https://pytorch.org
- Trénovanie WordEmbedding v PyTorch https://pytorch.org/tutorials/beginner/nlp/word_embeddings_tutorial.html
- Toolkit na medziprocesovú komunikáciu https://developer.nvidia.com/nccl Podporuje aj trénovanie na viacerých výpočtových uzloch naraz. PyTorch podporuje NCCL aj Goo toolit
- Toolkit na medziprocesovú komunikáciu  https://github.com/facebookincubator/gloo
- Paralelné trénovanie pomocou Pytorch https://pytorch.org/docs/stable/distributed.html /


Virtuálne stretnutie 14.4:

Nové úlohy:

- rozbehať knižnicu NCCL na servri idoc
- Preskúmať možnosti zakúpenia [NVIDIA Jetson](https://www.banggood.com/NVIDIA-Jetson-Nano-Developer-Embedded-Development-Board-A57-Artificial-Intelligence-AI-Development-Platform-p-1519173.html?gpla=1&gmcCountry=SK&currency=EUR&createTmp=1&utm_source=googleshopping&utm_medium=cpc_bgs&utm_content=lijing&utm_campaign=ssc-sk-ele-0309&ad_id=424274501985&gclid=Cj0KCQjw2PP1BRCiARIsAEqv-pTspekjYB4EACHoOyFRq41LhNM2dQ532-fTAsjzZPy9-2aH7H9cEh0aAuf0EALw_wcB&cur_warehouse=CN) / pre vedúceho
- nájsť vhodnú neurónovú sieť ktorá bude vedieť využívať NCCL, optimálne založenú na PyTorchm napr. [Fairseq](https://github.com/pytorch/fairseq)


Revízia 14.4.

- Natrénovaný FastText a GenSim word embedding model na slovenských dátach.

Revízia 9.4.:

Nové úlohy:

Natrénujte word embedding model na veľkých dátach (odkaz poskytnutý). Môžete použiť server idoc.


Nové úlohy:

- Pozrite si [metódy vyhodnotenia embedding modelov](https://duckduckgo.com/?t=ffab&q=word+embedding+evaluation&ia=web). Ako by ste postupovali pri vyhodnotení slovenského modelu?
- Pozrite si https://spacy.io/usage/training
- Pozrite si [repozitáre a výsledky týkajúce sa Spacy](/topics/spacy).
- Vyhodnotte slovenský spacy model


Stretnutie 9.3.2020

Úlohy na ďalšie stretnutie:

- Skúste natrénovať slovenský word2vec model podľa tutoriálu: http://spark.apache.org/docs/latest/ml-features.html#word2vec (podľa dát z emailu)
- Pozrite si niečo o metóde BERT

- https://medium.com/huggingface/introducing-fastbert-a-simple-deep-learning-library-for-bert-models-89ff763ad384
- https://github.com/huggingface/transformers


## Tímový projekt 2019

*Úlohy tímového projektu:*

 - Vypracujte min. 4 stranový rešerš na tému: "Paralelné spracovanie prirodzeného jazyka" (využitie napr. s word2vec, word embeddings, GloVe, fastText).
 - Citujte min. 10 najvýznamnejších bibliografických zdrojov.

*Písomná práca:* [Paralelné spracovanie prirodzeného jazyka](./timovy_projekt)

## Diplomová práca 2021

### Paralelné trénovanie neurónových sietí

*Meno vedúceho:* Ing. Daniel Hládek, PhD.

*Návrh na zadanie DP:*

1. Vypracujte prehľad literatúry na tému "Paralelné trénovanie neurónových sietí".
2. Vyberte vhodnú metódu paralelného trénovania.
3. Pripravte dáta a vykonajte sadu experimentov pre overenie funkčnosti a výkonu paralelného trénovania.
4. Navrhnite možné zlepšenia paralelného trénovania neurónových sietí.


- Zaujímavá príručka [Word2vec na Spark](http://spark.apache.org/docs/latest/ml-features.html#word2vec)

### Priebeh práce

*1. Pokus o natrénovanie modelu pomocou knižnice Gensim*

Ako prvý nástroj na zoznámenie sa s trénovaním W2V som zvolil Gensim. Nevýhodou knižnice je, že pri trénovaní nevyužíva GPU v žiadnom prípade. Podľa zdrojov na internete je však Gensim násobne rýchlejšia knižnica pri implementácii na menšie korpusy (https://rare-technologies.com/gensim-word2vec-on-cpu-faster-than-word2veckeras-on-gpu-incubator-student-blog/). Keďže môj korpus má približne 30GB, trénovanie pomocou Gensim by zrejme nebol najlepší nápad. Preto som si z korpusu vytiahol prvých 10,000 riadkov a otestoval implementáciu na tomto súbore. Celý skript je dostupný na [gensim_W2V.py](./dp2021/scripts/gensim_w2v.py).
Výsledok nebol vôbec presný, čo sa vzhľadom na veľkosť korpusu dalo očakávať. Pri slove letisko bola však zhoda vysoká, čo potvrdzuje správnosť implementácie.

![Výsledok implementácie Gensim](./gensim.PNG)

Keďže som mal problém skript s plným korpusom spustiť na školskom serveri, v ďalšom riešení chcem využiť aj GPU. V úvahu pripadá aj rozdelenie korpusu na viacero častí s tým, že sa zachová kontext.

*2. Natrénovanie slovenského modelu pomocou knižnice fasttext*

Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.
zz 2020-10-01 13:46:14 +00:00			`---`
			`title: Lukáš Pokrývka`
			`published: true`
			`taxonomy:`
			`category: [dp2021,bp2019]`
			`tag: [gpu,cloud]`
			`author: Daniel Hladek`
			`---`
Add 'pages/students/2016/lp832ut/README.md' 2019-12-07 09:43:00 +00:00			`# Lukáš Pokrývka`
zz 2020-03-09 10:38:01 +00:00
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-01-27 21:49:54 +00:00			`Rok začiatku štúdia: 2016`
Add 'pages/students/2016/lp832ut/README.md' 2019-12-07 09:43:00 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:07:15 +00:00			`## Diplomový projekt 2 2020`

Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:34:14 +00:00			`Ciele na semester:`
			`- Pripraviť tabuľku s výsledkami experimentov v rôznych konfuguráciách`
			`- Napísať stručný report (cca 8 strán) vo forme článku.`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:24:14 +00:00
			`Zásobník úloh :`

			`- Ten istý scenár spustiť v rôznych podmienkach a zmerať čas.`
			`- Trénovanie na jednej karte na jednom stroji`
			`- tesla`
			`- xavier`
			`- Trénovanie na dvoch kartách na jednom stroji`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-27 08:09:38 +00:00			`- idoc DONE`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:24:14 +00:00			`- titan`
			`- možno trénovanie na 4 kartách na jednom`
			`- quadra`
			`- Trénovanie na dvoch kartách na dvoch strojoch pomocou NCCL (idoc, tesla)`
			`- možno trénovanie na 2 kartách na dvoch strojoch (quadra plus idoc).`

Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-27 08:09:38 +00:00			`Virtuálne stretnutie 27.10.2020`

			`Stav:`

			`- Trénovanie na procesore, na 1 GPU, na 2 GPU na idoc`
			`- Príprava podkladov na trénovanie na dvoch strojoch pomocou Pytorch.`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-27 08:17:16 +00:00			`- Vytvorený prístup na teslu a xavier.`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-27 08:09:38 +00:00
			`Úlohy na ďďalšie stretnutie:`
			`- Štdúdium odbornej literatúry a vypracovanie poznámok.`
			`- Pokračovať v otvorených úlohách zo zásobníka`
			`- Vypracované skripty uložiť na GIT repozitár`
			`- vytvorte repozitár dp2021`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:24:14 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:07:15 +00:00			`Stretnutie 2.10.2020`

			`Urobené https://github.com/LukasPokryvka/YELP-on-GPU`

Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:24:14 +00:00			`- demonštračná úloha pre automatické hodnotenie reštaurácií na základe recenzie v anglickom jazyku, dátová sada yelp.`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:11:13 +00:00			`- preštudovaná kniha NLP with Pytorch, NLP in Action.`
			`- trénovanie na NVIDIA RTX2070 Super.`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:07:15 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:24:14 +00:00			`Úlohy do ďalšieho stretnutia:`
			`- Prejsť odborné publikácie na tému "benchmarking" a "parallel training of neural networks".`
			`- Zapísať si relevantné bibliografické odkazy.`
			`- Zapísať poznámky`
			`- Použiť index scopus alebo scholar`
			`- Trénovanie na jednej karte na jednom stroji`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:29:58 +00:00			`- tesla.fei.tuke.sk`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:24:14 +00:00			`- Trénovanie na dvoch kartách na jednom stroji - zistite čas trénovania a spotrebu pamäte.`
			`- idoc`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:07:15 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-06-17 08:44:04 +00:00

Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:24:14 +00:00			`## Diplomový projekt 1 2020`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-06-17 08:44:04 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-10-02 07:24:14 +00:00			`Paralelné trénovanie neurónových sietí pomocou knižnice Pytorch.`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-06-11 13:40:08 +00:00			`Úlohy na semester:`
zz 2020-03-09 10:38:01 +00:00
			`- podrobne si naštudovať vybranú metódu trénovania neurónových sietí`
			`- identifikujte možný spôsob paralelizácie`
			`- natrénujte zvolený model metódou paralelizácie`

Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-06-11 13:21:04 +00:00			`Revízia 11.6:`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-05-14 09:08:55 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-06-11 13:21:04 +00:00			`- Prebieha nákup https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-agx-xavier/`
			`- zatiaľ NCCL nefunguje na Jetson Nano, funguje na Jetson Xavier?`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-06-11 13:40:08 +00:00			`- Spustenie paralelného trénovania PyTorch https://pytorch.org/docs/stable/distributed.html#launch-utility`
			`- Spustenie paralelného trénovania Fairseq https://fairseq.readthedocs.io/en/latest/getting_started.html#distributed-training`

zz 2020-03-09 10:38:01 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-05-13 12:21:34 +00:00			`Revízia 13.5:`
zz 2020-03-09 10:38:01 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-05-13 12:21:34 +00:00			`Pozrite si odkazy na paralelné trénovanie:`
zz 2020-03-09 10:38:01 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-05-13 12:21:34 +00:00			`- Knižnica pre neuronové siete podobná TensorFlow https://pytorch.org`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-05-13 12:38:20 +00:00			`- Trénovanie WordEmbedding v PyTorch https://pytorch.org/tutorials/beginner/nlp/word_embeddings_tutorial.html`
			`- Toolkit na medziprocesovú komunikáciu https://developer.nvidia.com/nccl Podporuje aj trénovanie na viacerých výpočtových uzloch naraz. PyTorch podporuje NCCL aj Goo toolit`
			`- Toolkit na medziprocesovú komunikáciu https://github.com/facebookincubator/gloo`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-05-13 12:21:34 +00:00			`- Paralelné trénovanie pomocou Pytorch https://pytorch.org/docs/stable/distributed.html /`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-05-13 12:38:20 +00:00
zz 2020-03-09 10:38:01 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-06-11 13:21:04 +00:00			`Virtuálne stretnutie 14.4:`

			`Nové úlohy:`

			`- rozbehať knižnicu NCCL na servri idoc`
			`- Preskúmať možnosti zakúpenia [NVIDIA Jetson](https://www.banggood.com/NVIDIA-Jetson-Nano-Developer-Embedded-Development-Board-A57-Artificial-Intelligence-AI-Development-Platform-p-1519173.html?gpla=1&gmcCountry=SK&currency=EUR&createTmp=1&utm_source=googleshopping&utm_medium=cpc_bgs&utm_content=lijing&utm_campaign=ssc-sk-ele-0309&ad_id=424274501985&gclid=Cj0KCQjw2PP1BRCiARIsAEqv-pTspekjYB4EACHoOyFRq41LhNM2dQ532-fTAsjzZPy9-2aH7H9cEh0aAuf0EALw_wcB&cur_warehouse=CN) / pre vedúceho`
			`- nájsť vhodnú neurónovú sieť ktorá bude vedieť využívať NCCL, optimálne založenú na PyTorchm napr. [Fairseq](https://github.com/pytorch/fairseq)`


Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-05-13 12:21:34 +00:00			`Revízia 14.4.`

Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-05-14 09:08:55 +00:00			`- Natrénovaný FastText a GenSim word embedding model na slovenských dátach.`
zz 2020-03-09 10:38:01 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-04-09 09:31:26 +00:00			`Revízia 9.4.:`
zz 2020-03-09 10:38:01 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-04-09 09:31:26 +00:00			`Nové úlohy:`

			`Natrénujte word embedding model na veľkých dátach (odkaz poskytnutý). Môžete použiť server idoc.`
zz 2020-03-09 10:38:01 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-04-14 14:42:14 +00:00
			`Nové úlohy:`

			`- Pozrite si [metódy vyhodnotenia embedding modelov](https://duckduckgo.com/?t=ffab&q=word+embedding+evaluation&ia=web). Ako by ste postupovali pri vyhodnotení slovenského modelu?`
			`- Pozrite si https://spacy.io/usage/training`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-04-14 14:53:05 +00:00			`- Pozrite si [repozitáre a výsledky týkajúce sa Spacy](/topics/spacy).`
			`- Vyhodnotte slovenský spacy model`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-04-14 14:42:14 +00:00
zz 2020-03-09 10:38:01 +00:00
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-05-13 12:21:34 +00:00			`Stretnutie 9.3.2020`

			`Úlohy na ďalšie stretnutie:`

			`- Skúste natrénovať slovenský word2vec model podľa tutoriálu: http://spark.apache.org/docs/latest/ml-features.html#word2vec (podľa dát z emailu)`
			`- Pozrite si niečo o metóde BERT`

			`- https://medium.com/huggingface/introducing-fastbert-a-simple-deep-learning-library-for-bert-models-89ff763ad384`
			`- https://github.com/huggingface/transformers`



zz 2020-03-09 10:38:01 +00:00


Add 'pages/students/2016/lp832ut/README.md' 2019-12-07 09:43:00 +00:00			`## Tímový projekt 2019`

Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-01-27 21:49:54 +00:00			`Úlohy tímového projektu:`
Add 'pages/students/2016/lp832ut/README.md' 2019-12-07 09:43:00 +00:00
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-01-27 21:49:54 +00:00			`- Vypracujte min. 4 stranový rešerš na tému: "Paralelné spracovanie prirodzeného jazyka" (využitie napr. s word2vec, word embeddings, GloVe, fastText).`
			`- Citujte min. 10 najvýznamnejších bibliografických zdrojov.`
Add 'pages/students/2016/lp832ut/README.md' 2019-12-07 09:43:00 +00:00
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-01-29 17:21:58 +00:00			`Písomná práca: [Paralelné spracovanie prirodzeného jazyka](./timovy_projekt)`
Add 'pages/students/2016/lp832ut/README.md' 2019-12-07 09:43:00 +00:00
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-01-27 21:49:54 +00:00			`## Diplomová práca 2021`
zz 2020-03-09 10:38:01 +00:00
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-01-27 21:49:54 +00:00			`### Paralelné trénovanie neurónových sietí`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-01-23 09:08:59 +00:00
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-01-27 21:49:54 +00:00			`Meno vedúceho: Ing. Daniel Hládek, PhD.`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-01-23 09:08:59 +00:00
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-01-27 21:49:54 +00:00			`Návrh na zadanie DP:`
Update 'pages/students/2016/lukas_pokryvka/README.md' 2020-02-07 10:08:38 +00:00
			`1. Vypracujte prehľad literatúry na tému "Paralelné trénovanie neurónových sietí".`
			`2. Vyberte vhodnú metódu paralelného trénovania.`
			`3. Pripravte dáta a vykonajte sadu experimentov pre overenie funkčnosti a výkonu paralelného trénovania.`
			`4. Navrhnite možné zlepšenia paralelného trénovania neurónových sietí.`
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-01-27 21:57:36 +00:00
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-01-29 17:21:58 +00:00
zz 2020-03-09 10:38:01 +00:00			`- Zaujímavá príručka [Word2vec na Spark](http://spark.apache.org/docs/latest/ml-features.html#word2vec)`
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-03-30 15:41:17 +00:00
			`### Priebeh práce`

			`1. Pokus o natrénovanie modelu pomocou knižnice Gensim`

Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-03-30 15:47:48 +00:00			Ako prvý nástroj na zoznámenie sa s trénovaním W2V som zvolil Gensim. Nevýhodou knižnice je, že pri trénovaní nevyužíva GPU v žiadnom prípade. Podľa zdrojov na internete je však Gensim násobne rýchlejšia knižnica pri implementácii na menšie korpusy (https://rare-technologies.com/gensim-word2vec-on-cpu-faster-than-word2veckeras-on-gpu-incubator-student-blog/). Keďže môj korpus má približne 30GB, trénovanie pomocou Gensim by zrejme nebol najlepší nápad. Preto som si z korpusu vytiahol prvých 10,000 riadkov a otestoval implementáciu na tomto súbore. Celý skript je dostupný na [gensim_W2V.py](./dp2021/scripts/gensim_w2v.py).
			`Výsledok nebol vôbec presný, čo sa vzhľadom na veľkosť korpusu dalo očakávať. Pri slove letisko bola však zhoda vysoká, čo potvrdzuje správnosť implementácie.`
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-03-30 15:48:46 +00:00
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-03-30 15:48:18 +00:00			`![Výsledok implementácie Gensim](./gensim.PNG)`
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-03-30 15:48:46 +00:00
Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-05-14 07:25:22 +00:00			`Keďže som mal problém skript s plným korpusom spustiť na školskom serveri, v ďalšom riešení chcem využiť aj GPU. V úvahu pripadá aj rozdelenie korpusu na viacero častí s tým, že sa zachová kontext.`

			`2. Natrénovanie slovenského modelu pomocou knižnice fasttext`

zz 2020-10-01 13:46:14 +00:00			Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory .bin a .vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.