.. | ||
dp2021 | ||
timovy_projekt | ||
gensim.PNG | ||
README.md |
Lukáš Pokrývka
Rok začiatku štúdia: 2016
Diplomový projekt 1 2020
Ulohy na semester:
- podrobne si naštudovať vybranú metódu trénovania neurónových sietí
- identifikujte možný spôsob paralelizácie
- natrénujte zvolený model metódou paralelizácie
Stretnutie 9.3.2020
Úlohy na ďalšie stretnutie:
-
Skúste natrénovať slovenský word2vec model podľa tutoriálu: http://spark.apache.org/docs/latest/ml-features.html#word2vec (podľa dát z emailu)
-
Pozrite si niečo o metóde BERT
Tímový projekt 2019
Úlohy tímového projektu:
- Vypracujte min. 4 stranový rešerš na tému: "Paralelné spracovanie prirodzeného jazyka" (využitie napr. s word2vec, word embeddings, GloVe, fastText).
- Citujte min. 10 najvýznamnejších bibliografických zdrojov.
Písomná práca: Paralelné spracovanie prirodzeného jazyka
Diplomová práca 2021
Paralelné trénovanie neurónových sietí
Meno vedúceho: Ing. Daniel Hládek, PhD.
Návrh na zadanie DP:
- Vypracujte prehľad literatúry na tému "Paralelné trénovanie neurónových sietí".
- Vyberte vhodnú metódu paralelného trénovania.
- Pripravte dáta a vykonajte sadu experimentov pre overenie funkčnosti a výkonu paralelného trénovania.
- Navrhnite možné zlepšenia paralelného trénovania neurónových sietí.
- Zaujímavá príručka Word2vec na Spark
Priebeh práce
1. Pokus o natrénovanie modelu pomocou knižnice Gensim
Ako prvý nástroj na zoznámenie sa s trénovaním W2V som zvolil Gensim. Nevýhodou knižnice je, že pri trénovaní nevyužíva GPU v žiadnom prípade. Podľa zdrojov na internete je však Gensim násobne rýchlejšia knižnica pri implementácii na menšie korpusy (https://rare-technologies.com/gensim-word2vec-on-cpu-faster-than-word2veckeras-on-gpu-incubator-student-blog/). Keďže môj korpus má približne 30GB, natrénovanie pomocou Gensim by zrejme nebol najlepší nápad. Preto som si z korpusu vytiahol prvých 10,000 riadkov a otestoval implementáciu na tomto súbore. Celý skript je dostupný na gensim_W2V.py. Výsledok nebol vôbec presný, čo sa vzhľadom na veľkosť korpusu dalo očakávať. Pri slove letisko bola však zhoda vysoká, čo potvrdzuje správnosť implementácie.