dmytro_ushatenko/pages/students/2016/lukas_pokryvka
2020-03-30 15:42:07 +00:00
..
dp2021 Přidat „pages/students/2016/lukas_pokryvka/dp2021/scripts/gensim_w2v.py“ 2020-03-30 15:23:53 +00:00
timovy_projekt renamed pages 2019-12-12 10:08:17 +01:00
gensim.PNG Nahrát soubory do „pages/students/2016/lukas_pokryvka“ 2020-03-30 15:42:07 +00:00
README.md Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“ 2020-03-30 15:41:17 +00:00

Lukáš Pokrývka

Rok začiatku štúdia: 2016

Diplomový projekt 1 2020

Ulohy na semester:

  • podrobne si naštudovať vybranú metódu trénovania neurónových sietí
  • identifikujte možný spôsob paralelizácie
  • natrénujte zvolený model metódou paralelizácie

Stretnutie 9.3.2020

Úlohy na ďalšie stretnutie:

Tímový projekt 2019

Úlohy tímového projektu:

  • Vypracujte min. 4 stranový rešerš na tému: "Paralelné spracovanie prirodzeného jazyka" (využitie napr. s word2vec, word embeddings, GloVe, fastText).
  • Citujte min. 10 najvýznamnejších bibliografických zdrojov.

Písomná práca: Paralelné spracovanie prirodzeného jazyka

Diplomová práca 2021

Paralelné trénovanie neurónových sietí

Meno vedúceho: Ing. Daniel Hládek, PhD.

Návrh na zadanie DP:

  1. Vypracujte prehľad literatúry na tému "Paralelné trénovanie neurónových sietí".
  2. Vyberte vhodnú metódu paralelného trénovania.
  3. Pripravte dáta a vykonajte sadu experimentov pre overenie funkčnosti a výkonu paralelného trénovania.
  4. Navrhnite možné zlepšenia paralelného trénovania neurónových sietí.

Priebeh práce

1. Pokus o natrénovanie modelu pomocou knižnice Gensim

Ako prvý nástroj na zoznámenie sa s trénovaním W2V som zvolil Gensim. Nevýhodou knižnice je, že pri trénovaní nevyužíva GPU v žiadnom prípade. Podľa zdrojov na internete je však Gensim násobne rýchlejšia knižnica pri implementácii na menšie korpusy (https://rare-technologies.com/gensim-word2vec-on-cpu-faster-than-word2veckeras-on-gpu-incubator-student-blog/). Keďže môj korpus má približne 30GB, natrénovanie pomocou Gensim by zrejme nebol najlepší nápad. Preto som si z korpusu vytiahol prvých 10,000 riadkov a otestoval implementáciu na tomto súbore. Celý skript je dostupný na gensim_W2V.py. Výsledok nebol vôbec presný, čo sa vzhľadom na veľkosť korpusu dalo očakávať. Pri slove letisko bola však zhoda vysoká, čo potvrdzuje správnosť implementácie.