Aktualizovat „pages/students/2016/patrik_pavlisin/dp21/README.md“

2021-05-11 16:16:47 +00:00 · 2021-05-11 16:16:47 +00:00 · f6c6cbd4be
commit f6c6cbd4be
parent dde8bdf7cf
1 changed files with 49 additions and 42 deletions
--- a/pages/students/2016/patrik_pavlisin/dp21/README.md
+++ b/pages/students/2016/patrik_pavlisin/dp21/README.md
@ -95,6 +95,7 @@ V preklade má často zmysel kopírovať zriedkavé názvy entít alebo čísla
 ## OpenNMT-py tutoriál
 Pri práci na tomto tutoriály som použil školský server idoc, rovnako ako aj voľne dostupný Linuxový program Ubuntu.
 Predtým než začneme so samotným tutoriálom je nutné si nainštalovať PyTorch (rámec pre preklad neurónových strojov s otvoreným zdrojom) verziu projektu OpenNMT rovnako ako inštaláciu najnovšej dostupnej verzie knižnice pip. To vykonáme zadaním nasledujúcich príkazov:
 - pip install --upgrade pip
@ -108,17 +109,17 @@ Prvým krokom v tutoriály je príprava dát, na to nám poslúži predpripraven
 Pre pokračovanie si musíme pripraviť konfiguračný súbor YAML, aby sme určili údaje, ktoré sa použijú:
-# toy_en_de.yaml
+
-
+- -# toy_en_de.yaml
-## Where the samples will be written
+- -## Where the samples will be written
 - save_data: toy-ende/run/example
-## Where the vocab(s) will be written
+- -## Where the vocab(s) will be written
 - src_vocab: toy-ende/run/example.vocab.src
 - tgt_vocab: toy-ende/run/example.vocab.tgt
-# Prevent overwriting existing files in the folder
+- -# Prevent overwriting existing files in the folder
 - overwrite: False
-
+
-# Corpus opts:
+- -# Corpus opts:
 - data:
 - corpus_1:
 -  path_src: toy-ende/src-train.txt
@ -126,23 +127,26 @@ Pre pokračovanie si musíme pripraviť konfiguračný súbor YAML, aby sme urč
 -  valid:
 -  path_src: toy-ende/src-val.txt
 -  path_tgt: toy-ende/tgt-val.txt
-...
+
 ...
 Z tejto konfigurácie môžeme zostaviť slovnú zásobu, ktorá bude potrebná na trénovanie modelu:
 - onmt_build_vocab -config toy-ende/toy_en_de.yaml -n_sample 10000
- 
+
 Aby sme mohli model trénovať, musíme do konfiguračného súboru YAML pridať:
-	cesty slovnej zásoby, ktoré sa budú používať (v tomto prípade cesty vygenerované programom onmt_build_vocab)
+
-	tréning špecifických parametrov. 
+-- cesty slovnej zásoby, ktoré sa budú používať (v tomto prípade cesty vygenerované programom onmt_build_vocab)
 -- tréning špecifických parametrov.
 Pridáme do YAML konfiguračného súboru nasledujúce riadky:
-# Vocabulary files that were just created
+- -# Vocabulary files that were just created
 - src_vocab: toy-ende/run/example.vocab.src
 - tgt_vocab: toy-ende/run/example.vocab.tgt
-
+- -# Where to save the checkpoints
 -# Where to save the checkpoints
 - save_model: toy-ende/run/model
 - save_checkpoint_steps: 500
 - train_steps: 1000
@ -153,8 +157,11 @@ Potom už len stačí spustiť proces trénovania:
 - onmt_train -config toy-ende/toy_en_de.yaml
 V tejto konfigurácii bude bežať predvolený model, ktorý sa skladá z dvojvrstvového modulu LSTM s 500 skrytými jednotkami v kodéri aj v dekodéri.
 Posledným krokom je samotný preklad, ktorý vykonáme zadaním nasledujúceho príkazu:
-onmt_translate -model toy-ende/run/model_step_1000.pt -src toy-ende/src-test.txt -output toy-ende/pred_1000.txt -verbose 
+
 - onmt_translate -model toy-ende/run/model_step_1000.pt -src toy-ende/src-test.txt -output toy-ende/pred_1000.txt -verbose
 Výsledkom je model, ktorý môžeme použiť na predpovedanie nových údajov. To prebieha spustením tzv. Beam search. Beam search sa využíva za účelom udržania ľahšieho ovládania vo veľkých systémoch  s nedostatkom pamäte na uloženie celého vyhľadávacieho stromu. To vygeneruje predpovede do výstupného súboru toy-ende/pred_1000.txt . V mojom prípade proces prekladu trval na školskom serveri idoc približne 5 hodín zatiaľ čo v Linuxovom prostredí Ubuntu 1 hodinu. V obidvoch prípadoch boli výsledky dosť hrozné, pretože demo súbor údajov bol dosť malý.