Aktualizovat „pages/students/2016/lukas_pokryvka/README.md“

2020-05-14 07:25:22 +00:00 · 2020-05-14 07:25:22 +00:00 · d141499cd6
commit d141499cd6
parent c3e43cf32e
1 changed files with 5 additions and 1 deletions
--- a/pages/students/2016/lukas_pokryvka/README.md
+++ b/pages/students/2016/lukas_pokryvka/README.md
@ -92,4 +92,8 @@ Výsledok nebol vôbec presný, čo sa vzhľadom na veľkosť korpusu dalo očak

 ![Výsledok implementácie Gensim](./gensim.PNG)

-Keďže som mal problém skript s plným korpusom spustiť na školskom serveri, v ďalšom riešení chcem využiť aj GPU. V úvahu pripadá aj rozdelenie korpusu na viacero častí s tým, že sa zachová kontext.
+Keďže som mal problém skript s plným korpusom spustiť na školskom serveri, v ďalšom riešení chcem využiť aj GPU. V úvahu pripadá aj rozdelenie korpusu na viacero častí s tým, že sa zachová kontext.
+
+*2. Natrénovanie slovenského modelu pomocou knižnice fasttext*
+
+Ako druhú možnosť na natrénovanie slovenského modelu som využil fasttext, knižnicu od Facebook-u. Prostredie a všetky dependencies som si vytvoril pomocou Anacondy. Následne som si naklonoval projekt z gitu (https://github.com/facebookresearch/fastText.git). Fasstext poskytuje jednoduchý nástroj na vyčistenie dát, ktorý všetky slová pretransformuje na lowercase a oddelí ich od čiarok, bodiek, atď... Následne je potrebné správne nastaviť spúšťacie parametre a zvoliť si metódu CBOW alebo skip-gram. V mojom prípade som zvolil 2-gram, dimenzionalitu vektorov 200, a nastavil som počet epochov na 10, pomocou ktorých sa vhybovosť výrazne znížila. Taktiež je možné nastaviť, koľko jadier procesora sa má využívať pre multi-threading. Na dátach o veľkosti približne 13GB trvalo trénovanie takmer 24 hodín. Výstupom su 2 súbory *.bin a *.vec. Prvý súbor obsahuje celý natrénovaný model a môže byť ďalej používaný a načítavaný podľa potreby, druhý súbor obsahuje vektory slov, jeden riadok pre každé slovo.