update
This commit is contained in:
parent
d5280e1a82
commit
9d21a75d3a
@ -1,3 +1,8 @@
|
|||||||
|
## Update 05.05.2020
|
||||||
|
- upravený skript "punc.py" tak, že model načítava dáta zo súboru/ov
|
||||||
|
- vytvorený skript "text.py", ktorý upraví dáta do vhodnej podoby (5 krokov)
|
||||||
|
- vytvorený skript "tags.py", ktorý priradí každému symbolu jeden zo štvorice tagov (S, P, C, Q)
|
||||||
|
|
||||||
## Update 09.04.2020
|
## Update 09.04.2020
|
||||||
- Upravil som vzorový zdrojový kód, ktorý riešil Named-Entity Recognition, tak, aby dopĺňal interpunkciu.
|
- Upravil som vzorový zdrojový kód, ktorý riešil Named-Entity Recognition, tak, aby dopĺňal interpunkciu.
|
||||||
- Momentálne to funguje s ručne vpísanými trénovacími dátami a ručným "otagovaním", avšak iba pre bodku a otáznik.
|
- Momentálne to funguje s ručne vpísanými trénovacími dátami a ručným "otagovaním", avšak iba pre bodku a otáznik.
|
||||||
|
@ -175,6 +175,7 @@ STOP_TAG = "<STOP>"
|
|||||||
EMBEDDING_DIM = 5
|
EMBEDDING_DIM = 5
|
||||||
HIDDEN_DIM = 4
|
HIDDEN_DIM = 4
|
||||||
|
|
||||||
|
'''
|
||||||
training_data = [(
|
training_data = [(
|
||||||
"hovorí sa ,COM že ľudstvo postihuje nová epidémia ,COM šíriaca sa závratnou rýchlosťou .PER preto je dôležité vedieť čo to je ,COM ako jej predísť alebo ako ju odstrániť .PER".split(),
|
"hovorí sa ,COM že ľudstvo postihuje nová epidémia ,COM šíriaca sa závratnou rýchlosťou .PER preto je dôležité vedieť čo to je ,COM ako jej predísť alebo ako ju odstrániť .PER".split(),
|
||||||
"S S C S S S S S C S S S S P S S S S S S S C S S S S S S S P".split()
|
"S S C S S S S S C S S S S P S S S S S S S C S S S S S S S P".split()
|
||||||
@ -182,6 +183,20 @@ training_data = [(
|
|||||||
"nárast obezity je spôsobený najmä spôsobom života .PER tuky zlepšujú chuť do jedla a dávajú lepší pocit sýtosti ,COM uvedomte si však ,COM že všetky tuky sa Vám ukladajú ,COM pokiaľ ich nespálite .PER".split(),
|
"nárast obezity je spôsobený najmä spôsobom života .PER tuky zlepšujú chuť do jedla a dávajú lepší pocit sýtosti ,COM uvedomte si však ,COM že všetky tuky sa Vám ukladajú ,COM pokiaľ ich nespálite .PER".split(),
|
||||||
"S S S S S S S P S S S S S S S S S S C S S S C S S S S S S C S S S P".split()
|
"S S S S S S S P S S S S S S S S S S C S S S C S S S S S S C S S S P".split()
|
||||||
)]
|
)]
|
||||||
|
'''
|
||||||
|
|
||||||
|
with open('/home/dlindvai/work/text.txt', 'r') as text2:
|
||||||
|
with open('/home/dlindvai/work/tags.txt', 'r') as tags2:
|
||||||
|
text1 = text2.read().splitlines()
|
||||||
|
tags1 = tags2.read().splitlines()
|
||||||
|
|
||||||
|
for line in text1:
|
||||||
|
text = line.replace("['", "").replace("']", "")
|
||||||
|
for line in tags1:
|
||||||
|
tags = line.replace("['", "").replace("']", "")
|
||||||
|
|
||||||
|
training_data = [( text.split() , tags.split() )]
|
||||||
|
#print(training_data)
|
||||||
|
|
||||||
word_to_ix = {}
|
word_to_ix = {}
|
||||||
for sentence, tags in training_data:
|
for sentence, tags in training_data:
|
||||||
@ -189,7 +204,7 @@ for sentence, tags in training_data:
|
|||||||
if word not in word_to_ix:
|
if word not in word_to_ix:
|
||||||
word_to_ix[word] = len(word_to_ix)
|
word_to_ix[word] = len(word_to_ix)
|
||||||
|
|
||||||
tag_to_ix = {"S": 0, "C": 1, "P": 2, "E": 3, START_TAG: 4, STOP_TAG: 5}
|
tag_to_ix = {"S": 0, "C": 1, "P": 2, "Q": 3, START_TAG: 4, STOP_TAG: 5}
|
||||||
|
|
||||||
model = BiLSTM_CRF(len(word_to_ix), tag_to_ix, EMBEDDING_DIM, HIDDEN_DIM)
|
model = BiLSTM_CRF(len(word_to_ix), tag_to_ix, EMBEDDING_DIM, HIDDEN_DIM)
|
||||||
optimizer = optim.SGD(model.parameters(), lr=0.01, weight_decay=1e-4)
|
optimizer = optim.SGD(model.parameters(), lr=0.01, weight_decay=1e-4)
|
||||||
@ -199,7 +214,7 @@ with torch.no_grad():
|
|||||||
precheck_tags = torch.tensor([tag_to_ix[t] for t in training_data[0][1]], dtype=torch.long)
|
precheck_tags = torch.tensor([tag_to_ix[t] for t in training_data[0][1]], dtype=torch.long)
|
||||||
print("Predicted output before training: ", model(precheck_sent))
|
print("Predicted output before training: ", model(precheck_sent))
|
||||||
|
|
||||||
for epoch in range(300): # normally you would NOT do 300 epochs, but this is small dataset
|
for epoch in range(30): # normally you would NOT do 300 epochs, but this is small dataset
|
||||||
for sentence, tags in training_data:
|
for sentence, tags in training_data:
|
||||||
# Step 1. Remember that Pytorch accumulates gradients.
|
# Step 1. Remember that Pytorch accumulates gradients.
|
||||||
# We need to clear them out before each instance
|
# We need to clear them out before each instance
|
||||||
@ -219,3 +234,4 @@ for epoch in range(300): # normally you would NOT do 300 epochs, but this is sm
|
|||||||
with torch.no_grad():
|
with torch.no_grad():
|
||||||
precheck_sent = prepare_sequence(training_data[0][0], word_to_ix)
|
precheck_sent = prepare_sequence(training_data[0][0], word_to_ix)
|
||||||
print("Predicted output after training: ", model(precheck_sent))
|
print("Predicted output after training: ", model(precheck_sent))
|
||||||
|
|
||||||
|
@ -1,11 +0,0 @@
|
|||||||
# coding: utf-8
|
|
||||||
#!/usr/bin/python
|
|
||||||
|
|
||||||
import codecs
|
|
||||||
import sys
|
|
||||||
|
|
||||||
with codecs.open(sys.argv[2],'w') as out_txt:
|
|
||||||
with codecs.open(sys.argv[1],'r') as text:
|
|
||||||
for line in text:
|
|
||||||
line = line.replace('.','PER').replace(',','COM').replace('?','QUE')
|
|
||||||
out_txt.write(line)
|
|
25
pages/students/2016/darius_lindvai/dp2021/tags.py
Normal file
25
pages/students/2016/darius_lindvai/dp2021/tags.py
Normal file
@ -0,0 +1,25 @@
|
|||||||
|
import os
|
||||||
|
import re
|
||||||
|
|
||||||
|
if os.path.exists('tags.txt'):
|
||||||
|
os.remove('tags.txt')
|
||||||
|
|
||||||
|
with open('text.txt', 'r') as input_file:
|
||||||
|
with open('tags.txt', 'a') as output_file:
|
||||||
|
for line in input_file:
|
||||||
|
for word in line.split():
|
||||||
|
if (word == '.PER'):
|
||||||
|
word = word.replace(word, 'P')
|
||||||
|
output_file.write(word + ' ')
|
||||||
|
|
||||||
|
elif (word == ',COM'):
|
||||||
|
word = word.replace(word, 'C')
|
||||||
|
output_file.write(word + ' ')
|
||||||
|
|
||||||
|
elif(word == '?QUE'):
|
||||||
|
word = word.replace(word, 'Q')
|
||||||
|
output_file.write(word + ' ')
|
||||||
|
|
||||||
|
else:
|
||||||
|
word = word.replace(word, 'S')
|
||||||
|
output_file.write(word + ' ')
|
14
pages/students/2016/darius_lindvai/dp2021/text.py
Normal file
14
pages/students/2016/darius_lindvai/dp2021/text.py
Normal file
@ -0,0 +1,14 @@
|
|||||||
|
import re
|
||||||
|
import os
|
||||||
|
|
||||||
|
if os.path.exists('text.txt'):
|
||||||
|
os.remove('text.txt')
|
||||||
|
|
||||||
|
with open('/home/dlindvai/work/train.txt', 'r') as input_file:
|
||||||
|
with open('/home/dlindvai/work/text.txt', 'a') as output_file:
|
||||||
|
for line in input_file:
|
||||||
|
line = line.replace('\n', '')
|
||||||
|
line = re.sub(r"([\w/'+$\s-]+|[^\w/'+$\s-]+)\s*", r"\1 ", line)
|
||||||
|
line = line.lower()
|
||||||
|
line = line.replace('.','.PER').replace(',',',COM').replace('?','?QUE')
|
||||||
|
output_file.write(line)
|
100
pages/students/2016/darius_lindvai/dp2021/train.txt
Normal file
100
pages/students/2016/darius_lindvai/dp2021/train.txt
Normal file
@ -0,0 +1,100 @@
|
|||||||
|
prvé reaktory začali u nás fungovať v roku 1972 , fond vznikol až v roku 1995 .
|
||||||
|
" vláda súhlasila s odstavením bohunického bloku V 1 ako obeť za vstup do Európskej únie a neumožnila , aby si naakumuloval prostriedky na svoju likvidáciu .
|
||||||
|
|
||||||
|
je naivné myslieť si , že chýbajúce zdroje zaplatí niekto iný ako občan .
|
||||||
|
|
||||||
|
či to bude zahrnuté v cene elektriny , alebo ako kapitola v štátnom rozpočte , " povedal hovorca elektrární Rastislav Petrech .
|
||||||
|
|
||||||
|
privatizáciu treba podľa súčasných dohôd uzatvoriť do konca apríla , dovtedy by mal byť vyriešený problém zákona aj v prípade prezidentovho veta .
|
||||||
|
|
||||||
|
okrem toho ešte treba vyradiť z majetku elektrární bohunické bloky pred odstavením a vodné dielo Gabčíkovo , ktoré je stále predmetom súdneho sporu s Maďarmi .
|
||||||
|
ďalšie kroky v privatizácii :
|
||||||
|
|
||||||
|
- do dvoch týždňov doručia schválený návrh zákona o jadrovom účte
|
||||||
|
|
||||||
|
- prezident rozhodne do 15 dní
|
||||||
|
|
||||||
|
- v prípade veta budú poslanci o zákone rokovať znova na schôdzi 19. apríla .
|
||||||
|
|
||||||
|
- rezort hospodárstva musí z majetku SE vyčleniť aktíva v Bohuniciach a
|
||||||
|
- privatizácia musí byť uzavretá do konca apríla
|
||||||
|
|
||||||
|
--endtext
|
||||||
|
i 189811 TASR : IDC: Piráti brzdia ekonomiku Ekonomika_a_firmy 9.12.2005 00:00
|
||||||
|
zníženie miery softvérového pirátstva na Slovensku zo súčasných 48 percent na 38 percent by mohlo vytvoriť 1400 nových pracovných miest .
|
||||||
|
|
||||||
|
viedlo by k ekonomickému rastu v hodnote 267 miliónov dolárov , čo je v prepočte 8,6 miliardy korún a daňovým príjmom vo výške 60 miliónov dolárov .
|
||||||
|
|
||||||
|
podľa záverov štúdie spoločnosti IDC by zníženie miery softvérového pirátstva mohlo naštartovať rast sektora informačných technológií .
|
||||||
|
iDC predpokladá , že IT sektor by na Slovensku mohol do roku 2009 vzrásť o 59 percent .
|
||||||
|
|
||||||
|
pri 10 - percentnom znížení miery softvérového pirátstva by však tento rast mohol byť až 69 percent .
|
||||||
|
|
||||||
|
--endtext
|
||||||
|
i 189874 Reuters : Operátori začnú zlacňovať roaming Ekonomika_a_firmy 21.2.2006 00:00
|
||||||
|
telefonovanie z mobilu v zahraniční zrejme čoskoro zlacnie .
|
||||||
|
|
||||||
|
naznačujú to správy dvoch spriaznených mobilných operátorov skupiny Deutsche Telekom .
|
||||||
|
výkonný riaditeľ nemeckého mobilného operátora T - Mobile Rene Obermann vyhlásil , že k zlacneniu roamingu pre nemeckých zákazníkov dôjde už na jar .
|
||||||
|
|
||||||
|
slovenský T - Mobile vzápätí oznámil , že " ceny roamingových sa budú znižovať " aj pre slovenských klientov .
|
||||||
|
|
||||||
|
podľa Juraja Drobu zo slovenského T - Mobilu spoločnosť pokročila v rokovaniach so zahraničnými mobilnými operátormi .
|
||||||
|
|
||||||
|
výsledkom rokovaní bude zníženie medzinárodných prepojovacích poplatkov u viacerých európskych operátorov súčasne .
|
||||||
|
|
||||||
|
jednotka na slovenskom trhu , spoločnosť Orange Slovakia sa zatiaľ k znižovaniu cien roamingu nevyjadruje .
|
||||||
|
Roaming je dnes v Európe podľa eurokomisárky pre informačnú spoločnosť a médiá Viviane Redingovej pridrahý .
|
||||||
|
|
||||||
|
ak sa mobilní operátori na znížení prepojovacích poplatkov sami nedohodnú , Redingová im hrozí vypracovaním regulačných predpisov , o ktorých by Európsky parlament mohol rokovať ešte pred letnými prázdninami .
|
||||||
|
|
||||||
|
ak je dnes zákazník Orange Slovensko napríklad v Maďarsku a je prihlásený v miestnej sieti Vodafone , za minútový hovor na Slovensko zaplatí vyše 28 korún .
|
||||||
|
|
||||||
|
ak by bol však zákazníkom priamo Vodafonu v Maďarsku , hovor by ho vyšiel o polovicu lacnejšie .
|
||||||
|
|
||||||
|
--endtext
|
||||||
|
európska komisia včera súhlasila so štátnou podporou 525 miliónov korún pre Hornonitrianske Bane Prievidza .
|
||||||
|
|
||||||
|
štátna pomoc nesmeruje na krytie ťažobných nákladov , ale na krytie počiatočných investícií spojených so zefektívňovaním ťažby .
|
||||||
|
|
||||||
|
dotácia nepresahuje 30 percent predpokladaných investičných nákladov .
|
||||||
|
|
||||||
|
komisia vo vyhlásení oznámila , že túto vládnu dotáciu považuje za zlučiteľnú s fungovaním jednotného európskeho trhu .
|
||||||
|
|
||||||
|
eurokomisár pre energetiku Andris Piebalgs vyzdvihol význam domácej ťažby uhlia na zaistenie energie v únii a vyslovil sa za zefektívňovanie prevádzky baní .
|
||||||
|
hornonitrianske bane Prievidza sú dlhodobo jedným z najväčších poberateľov štátnej pomoci na Slovensku .
|
||||||
|
|
||||||
|
v rokoch 2001 až 2004 dostali od štátu viac ako štvrť miliardy korún vo forme dotácií a úľav .
|
||||||
|
|
||||||
|
od ťažby uhlia je závislá ekonomika regiónu horného Ponitria .
|
||||||
|
|
||||||
|
--endtext
|
||||||
|
i 189975 AP : Hyundai zmluvu s ČR podpíše doma Ekonomika_a_firmy 2.5.2006 00:00
|
||||||
|
juhokórejská automobilka Hyundai Motor podpíše dohodu s Českou republikou o výstavbe nového závodu za miliardu eur aj napriek škandálu týkajúceho sa sprenevery a úplatkárstva v spoločnosti Hyundai .
|
||||||
|
po finančnej kontrole v spoločnosti Hyundai a následnom zatknutí jej predsedu predstavenstva Čchunga Mong-kooa kórejská strana potvrdila , že dohodu o investícii plánuje podpísať v polovici mája .
|
||||||
|
|
||||||
|
informoval o tom hovorca českého ministerstva priemyslu a obchodu Ivo Mravinac .
|
||||||
|
|
||||||
|
miestom slávnostného podpísania dohody však nebude Česká republika , ale hlavné mesto Južnej Kórey , Soul .
|
||||||
|
|
||||||
|
--endtext
|
||||||
|
i 189977 Lukáš Pardubský : Telecom žaluje Protimonopolný úrad Ekonomika_a_firmy 2.2.2006 00:00
|
||||||
|
Slovak Telecom sa rozhodol brániť proti 885 - miliónovej pokute žalobou na Krajskom súde v Bratislave .
|
||||||
|
o sankcii rozhodla Rada Protimonopolného úradu koncom decembra 2005 s tým , že Telecom zneužil svoje dominantné postavenie , keď konkurencii neposkytol prístup k sústave jeho miestnych vedení .
|
||||||
|
|
||||||
|
Telecom žalobu podľa riaditeľa pre korporátnu komunikáciu Jána Kondáša podal 27. januára. .
|
||||||
|
|
||||||
|
v prípade pokuty išlo už o druhostupňové rozhodnutie úradu , pretože proti pôvodnému z mája minulého roka sa Telecom odvolal .
|
||||||
|
|
||||||
|
rada však verdikt potvrdila a ten nadobudol platnosť 16. januára. .
|
||||||
|
|
||||||
|
od tohto dátumu začala plynúť aj 30 - dňová lehota na uhradenie pokuty .
|
||||||
|
keďže Telecom platiť nechce , súčasťou žaloby je aj návrh na vydanie uznesenia , ktorým by sa vykonateľnosť rozhodnutia Protimonopolného úradu odložila .
|
||||||
|
|
||||||
|
spor operátora s úradom nie je prvý .
|
||||||
|
|
||||||
|
už v minulosti Telecom podobným postupom dosiahol oddialenie povinnosti zaplatiť pokutu 20 miliónov korún , ako aj rozhodnutia Telekomunikačného úradu o zákaze viazania služieb ADSL s hlasovými produktmi .
|
||||||
|
|
||||||
|
v druhom prípade sa malo viazanie ukončiť v októbri 2004 , reálne to však bude až v prvej polovici tohto roku .
|
||||||
|
|
||||||
|
--endtext
|
Loading…
Reference in New Issue
Block a user