Přidat „pages/students/2016/lukas_pokryvka/dp2021/scripts/gensim_w2v.py“

2020-03-30 15:23:53 +00:00 · 2020-03-30 15:23:53 +00:00 · 23146fa9c1
commit 23146fa9c1
parent 4100268f4b
1 changed files with 83 additions and 0 deletions
--- a/pages/students/2016/lukas_pokryvka/dp2021/scripts/gensim_w2v.py
+++ b/pages/students/2016/lukas_pokryvka/dp2021/scripts/gensim_w2v.py
@ -0,0 +1,83 @@
+# mozeme pouzit pri nacitavani priamo zo subora *.gz
+# import gzip
+import gensim
+import logging
+import os
+
+# nastavenie pre event logging
+logging.basicConfig(
+    format='%(asctime)s : %(levelname)s : %(message)s',
+    level=logging.INFO)
+
+
+def show_file_contents(input_file):
+    with open(input_file, 'rb') as f:
+        for i, line in enumerate(f):
+            print(line)
+            break
+
+# nacitanie vstupu v binarnom formate
+
+
+def read_input(input_file):
+    logging.info(
+        "nacitavam subor {0}...moze to chvilku trvat".format(input_file))
+    with open(input_file, 'rb') as f:
+        for i, line in enumerate(f):
+
+            if (i % 1000 == 0):
+                logging.info("nacitane {0} riadkov".format(i))
+            # jednoducha uprava vstupu, vracia list of words
+            yield gensim.utils.simple_preprocess(line)
+
+
+if __name__ == '__main__':
+
+    documents = list(read_input('files.txt'))
+    logging.info("Vsetky data boli nacitane")
+
+    # vytvorenie slovnika a natrenovanie modelu
+    model = gensim.models.Word2Vec(
+        documents,
+        size=150,
+        window=10,
+        min_count=2,
+        workers=10)
+    model.train(documents, total_examples=len(documents), epochs=10)
+
+    # ulozenie vektorov slov
+    model.wv.save(os.path.join("./vectors/default"))
+
+    # hladanie podobnych slov
+    w1 = "kostol"
+    print("Najpodobnejsie slovo slovu {0}".format(
+        w1), model.wv.most_similar(positive=w1))
+
+    # najdenie n podobnych slov pre rozne slova
+    w1 = ["trh"]
+    print(
+        "Najpodobnejsie slovu {0}".format(w1),
+        model.wv.most_similar(
+            positive=w1,
+            topn=6))
+
+    w1 = ["letisko"]
+    print(
+        "Najpodobnejsie slovu {0}".format(w1),
+        model.wv.most_similar(
+            positive=w1,
+            topn=6))
+
+    w1 = ["škola"]
+    print(
+        "Najpodobnejsie slovu {0}".format(w1),
+        model.wv.most_similar(
+            positive=w1,
+            topn=6))
+
+    w1 = ["súradnice"]
+    print(
+        "Najpodobnejsie slovu {0}".format(w1),
+        model.wv.most_similar(
+            positive=w1,
+            topn=6))