forked from KEMT/zpwiki
		
	update
This commit is contained in:
		
							parent
							
								
									d5280e1a82
								
							
						
					
					
						commit
						9d21a75d3a
					
				| @ -1,3 +1,8 @@ | |||||||
|  | ## Update 05.05.2020 | ||||||
|  | - upravený skript "punc.py" tak, že model načítava dáta zo súboru/ov | ||||||
|  | - vytvorený skript "text.py", ktorý upraví dáta do vhodnej podoby (5 krokov) | ||||||
|  | - vytvorený skript "tags.py", ktorý priradí každému symbolu jeden zo štvorice tagov (S, P, C, Q) | ||||||
|  | 
 | ||||||
| ## Update 09.04.2020 | ## Update 09.04.2020 | ||||||
| - Upravil som vzorový zdrojový kód, ktorý riešil Named-Entity Recognition, tak, aby dopĺňal interpunkciu. | - Upravil som vzorový zdrojový kód, ktorý riešil Named-Entity Recognition, tak, aby dopĺňal interpunkciu. | ||||||
| - Momentálne to funguje s ručne vpísanými trénovacími dátami a ručným "otagovaním", avšak iba pre bodku a otáznik. | - Momentálne to funguje s ručne vpísanými trénovacími dátami a ručným "otagovaním", avšak iba pre bodku a otáznik. | ||||||
|  | |||||||
| @ -175,6 +175,7 @@ STOP_TAG = "<STOP>" | |||||||
| EMBEDDING_DIM = 5 | EMBEDDING_DIM = 5 | ||||||
| HIDDEN_DIM = 4 | HIDDEN_DIM = 4 | ||||||
| 
 | 
 | ||||||
|  | ''' | ||||||
| training_data = [( | training_data = [( | ||||||
|     "hovorí sa ,COM že ľudstvo postihuje nová epidémia ,COM šíriaca sa závratnou rýchlosťou .PER preto je dôležité vedieť čo to je ,COM ako jej predísť alebo ako ju odstrániť .PER".split(), |     "hovorí sa ,COM že ľudstvo postihuje nová epidémia ,COM šíriaca sa závratnou rýchlosťou .PER preto je dôležité vedieť čo to je ,COM ako jej predísť alebo ako ju odstrániť .PER".split(), | ||||||
|     "S S C S S S S S C S S S S P S S S S S S S C S S S S S S S P".split() |     "S S C S S S S S C S S S S P S S S S S S S C S S S S S S S P".split() | ||||||
| @ -182,6 +183,20 @@ training_data = [( | |||||||
|     "nárast obezity je spôsobený najmä spôsobom života .PER tuky zlepšujú chuť do jedla a dávajú lepší pocit sýtosti ,COM uvedomte si však ,COM že všetky tuky sa Vám ukladajú ,COM pokiaľ ich nespálite .PER".split(), |     "nárast obezity je spôsobený najmä spôsobom života .PER tuky zlepšujú chuť do jedla a dávajú lepší pocit sýtosti ,COM uvedomte si však ,COM že všetky tuky sa Vám ukladajú ,COM pokiaľ ich nespálite .PER".split(), | ||||||
|     "S S S S S S S P S S S S S S S S S S C S S S C S S S S S S C S S S P".split() |     "S S S S S S S P S S S S S S S S S S C S S S C S S S S S S C S S S P".split() | ||||||
| )] | )] | ||||||
|  | ''' | ||||||
|  | 
 | ||||||
|  | with open('/home/dlindvai/work/text.txt', 'r') as text2: | ||||||
|  | 	with open('/home/dlindvai/work/tags.txt', 'r') as tags2: | ||||||
|  | 		text1 = text2.read().splitlines() | ||||||
|  | 		tags1 = tags2.read().splitlines() | ||||||
|  | 
 | ||||||
|  | 		for line in text1: | ||||||
|  | 			text = line.replace("['", "").replace("']", "") | ||||||
|  | 		for line in tags1: | ||||||
|  | 			tags = line.replace("['", "").replace("']", "") | ||||||
|  | 
 | ||||||
|  | training_data = [( text.split() , tags.split() )] | ||||||
|  | #print(training_data) | ||||||
| 
 | 
 | ||||||
| word_to_ix = {} | word_to_ix = {} | ||||||
| for sentence, tags in training_data: | for sentence, tags in training_data: | ||||||
| @ -189,7 +204,7 @@ for sentence, tags in training_data: | |||||||
|         if word not in word_to_ix: |         if word not in word_to_ix: | ||||||
|             word_to_ix[word] = len(word_to_ix) |             word_to_ix[word] = len(word_to_ix) | ||||||
| 
 | 
 | ||||||
| tag_to_ix = {"S": 0, "C": 1, "P": 2, "E": 3, START_TAG: 4, STOP_TAG: 5} | tag_to_ix = {"S": 0, "C": 1, "P": 2, "Q": 3, START_TAG: 4, STOP_TAG: 5} | ||||||
| 
 | 
 | ||||||
| model = BiLSTM_CRF(len(word_to_ix), tag_to_ix, EMBEDDING_DIM, HIDDEN_DIM) | model = BiLSTM_CRF(len(word_to_ix), tag_to_ix, EMBEDDING_DIM, HIDDEN_DIM) | ||||||
| optimizer = optim.SGD(model.parameters(), lr=0.01, weight_decay=1e-4) | optimizer = optim.SGD(model.parameters(), lr=0.01, weight_decay=1e-4) | ||||||
| @ -199,7 +214,7 @@ with torch.no_grad(): | |||||||
|     precheck_tags = torch.tensor([tag_to_ix[t] for t in training_data[0][1]], dtype=torch.long) |     precheck_tags = torch.tensor([tag_to_ix[t] for t in training_data[0][1]], dtype=torch.long) | ||||||
|     print("Predicted output before training: ", model(precheck_sent)) |     print("Predicted output before training: ", model(precheck_sent)) | ||||||
| 
 | 
 | ||||||
| for epoch in range(300):  # normally you would NOT do 300 epochs, but this is small dataset | for epoch in range(30):  # normally you would NOT do 300 epochs, but this is small dataset | ||||||
|     for sentence, tags in training_data: |     for sentence, tags in training_data: | ||||||
|         # Step 1. Remember that Pytorch accumulates gradients. |         # Step 1. Remember that Pytorch accumulates gradients. | ||||||
|         # We need to clear them out before each instance |         # We need to clear them out before each instance | ||||||
| @ -219,3 +234,4 @@ for epoch in range(300):  # normally you would NOT do 300 epochs, but this is sm | |||||||
| with torch.no_grad(): | with torch.no_grad(): | ||||||
|     precheck_sent = prepare_sequence(training_data[0][0], word_to_ix) |     precheck_sent = prepare_sequence(training_data[0][0], word_to_ix) | ||||||
|     print("Predicted output after training: ", model(precheck_sent)) |     print("Predicted output after training: ", model(precheck_sent)) | ||||||
|  | 
 | ||||||
|  | |||||||
| @ -1,11 +0,0 @@ | |||||||
| # coding: utf-8 |  | ||||||
| #!/usr/bin/python |  | ||||||
| 
 |  | ||||||
| import codecs |  | ||||||
| import sys |  | ||||||
| 
 |  | ||||||
| with codecs.open(sys.argv[2],'w') as out_txt: |  | ||||||
|         with codecs.open(sys.argv[1],'r') as text: |  | ||||||
|             for line in text: |  | ||||||
|                 line = line.replace('.','PER').replace(',','COM').replace('?','QUE') |  | ||||||
|                 out_txt.write(line) |  | ||||||
							
								
								
									
										25
									
								
								pages/students/2016/darius_lindvai/dp2021/tags.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										25
									
								
								pages/students/2016/darius_lindvai/dp2021/tags.py
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,25 @@ | |||||||
|  | import os | ||||||
|  | import re | ||||||
|  | 
 | ||||||
|  | if os.path.exists('tags.txt'): | ||||||
|  | 	os.remove('tags.txt') | ||||||
|  | 
 | ||||||
|  | with open('text.txt', 'r') as input_file: | ||||||
|  | 	with open('tags.txt', 'a') as output_file: | ||||||
|  | 		for line in input_file: | ||||||
|  | 			for word in line.split(): | ||||||
|  | 				if (word == '.PER'): | ||||||
|  | 					word = word.replace(word, 'P') | ||||||
|  | 					output_file.write(word + ' ') | ||||||
|  | 
 | ||||||
|  | 				elif (word == ',COM'): | ||||||
|  | 					word = word.replace(word, 'C') | ||||||
|  | 					output_file.write(word + ' ') | ||||||
|  | 
 | ||||||
|  | 				elif(word == '?QUE'): | ||||||
|  | 					word = word.replace(word, 'Q') | ||||||
|  | 					output_file.write(word + ' ') | ||||||
|  | 
 | ||||||
|  | 				else: | ||||||
|  | 					word = word.replace(word, 'S') | ||||||
|  | 					output_file.write(word + ' ') | ||||||
							
								
								
									
										14
									
								
								pages/students/2016/darius_lindvai/dp2021/text.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										14
									
								
								pages/students/2016/darius_lindvai/dp2021/text.py
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,14 @@ | |||||||
|  | import re | ||||||
|  | import os | ||||||
|  | 
 | ||||||
|  | if os.path.exists('text.txt'): | ||||||
|  | 	os.remove('text.txt') | ||||||
|  | 
 | ||||||
|  | with open('/home/dlindvai/work/train.txt', 'r') as input_file: | ||||||
|  | 	with open('/home/dlindvai/work/text.txt', 'a') as output_file: | ||||||
|  | 		for line in input_file: | ||||||
|  | 			line = line.replace('\n', '') | ||||||
|  | 			line = re.sub(r"([\w/'+$\s-]+|[^\w/'+$\s-]+)\s*", r"\1 ", line) | ||||||
|  | 			line = line.lower() | ||||||
|  | 			line = line.replace('.','.PER').replace(',',',COM').replace('?','?QUE') | ||||||
|  | 			output_file.write(line) | ||||||
							
								
								
									
										100
									
								
								pages/students/2016/darius_lindvai/dp2021/train.txt
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										100
									
								
								pages/students/2016/darius_lindvai/dp2021/train.txt
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,100 @@ | |||||||
|  | prvé reaktory začali u nás fungovať v roku 1972 , fond vznikol až v roku 1995 . | ||||||
|  | " vláda súhlasila s odstavením bohunického bloku V 1 ako obeť za vstup do Európskej únie a neumožnila , aby si naakumuloval prostriedky na svoju likvidáciu . | ||||||
|  | 
 | ||||||
|  | je naivné myslieť si , že chýbajúce zdroje zaplatí niekto iný ako občan . | ||||||
|  | 
 | ||||||
|  | či to bude zahrnuté v cene elektriny , alebo ako kapitola v štátnom rozpočte , " povedal hovorca elektrární Rastislav Petrech . | ||||||
|  | 
 | ||||||
|  | privatizáciu treba podľa súčasných dohôd uzatvoriť do konca apríla , dovtedy by mal byť vyriešený problém zákona aj v prípade prezidentovho veta . | ||||||
|  | 
 | ||||||
|  | okrem toho ešte treba vyradiť z majetku elektrární bohunické bloky pred odstavením a vodné dielo Gabčíkovo , ktoré je stále predmetom súdneho sporu s Maďarmi . | ||||||
|  | ďalšie kroky v privatizácii : | ||||||
|  | 
 | ||||||
|  | - do dvoch týždňov doručia schválený návrh zákona o jadrovom účte | ||||||
|  | 
 | ||||||
|  | - prezident rozhodne do 15 dní | ||||||
|  | 
 | ||||||
|  | - v prípade veta budú poslanci o zákone rokovať znova na schôdzi 19. apríla . | ||||||
|  | 
 | ||||||
|  | - rezort hospodárstva musí z majetku SE vyčleniť aktíva v Bohuniciach a | ||||||
|  | - privatizácia musí byť uzavretá do konca apríla | ||||||
|  | 
 | ||||||
|  | --endtext | ||||||
|  | i	189811	TASR : IDC: Piráti brzdia ekonomiku	Ekonomika_a_firmy	9.12.2005 00:00 | ||||||
|  | zníženie miery softvérového pirátstva na Slovensku zo súčasných 48 percent na 38 percent by mohlo vytvoriť 1400 nových pracovných miest . | ||||||
|  | 
 | ||||||
|  | viedlo by k ekonomickému rastu v hodnote 267 miliónov dolárov , čo je v prepočte 8,6 miliardy korún a daňovým príjmom vo výške 60 miliónov dolárov . | ||||||
|  | 
 | ||||||
|  | podľa záverov štúdie spoločnosti IDC by zníženie miery softvérového pirátstva mohlo naštartovať rast sektora informačných technológií . | ||||||
|  | iDC predpokladá , že IT sektor by na Slovensku mohol do roku 2009 vzrásť o 59 percent . | ||||||
|  | 
 | ||||||
|  | pri 10 - percentnom znížení miery softvérového pirátstva by však tento rast mohol byť až 69 percent . | ||||||
|  | 
 | ||||||
|  | --endtext | ||||||
|  | i	189874	Reuters : Operátori začnú zlacňovať roaming	Ekonomika_a_firmy	21.2.2006 00:00 | ||||||
|  | telefonovanie z mobilu v zahraniční zrejme čoskoro zlacnie . | ||||||
|  | 
 | ||||||
|  | naznačujú to správy dvoch spriaznených mobilných operátorov skupiny Deutsche Telekom . | ||||||
|  | výkonný riaditeľ nemeckého mobilného operátora T - Mobile Rene Obermann vyhlásil , že k zlacneniu roamingu pre nemeckých zákazníkov dôjde už na jar . | ||||||
|  | 
 | ||||||
|  | slovenský T - Mobile vzápätí oznámil , že " ceny roamingových sa budú znižovať " aj pre slovenských klientov . | ||||||
|  | 
 | ||||||
|  | podľa Juraja Drobu zo slovenského T - Mobilu spoločnosť pokročila v rokovaniach so zahraničnými mobilnými operátormi . | ||||||
|  | 
 | ||||||
|  | výsledkom rokovaní bude zníženie medzinárodných prepojovacích poplatkov u viacerých európskych operátorov súčasne . | ||||||
|  | 
 | ||||||
|  | jednotka na slovenskom trhu , spoločnosť Orange Slovakia sa zatiaľ k znižovaniu cien roamingu nevyjadruje . | ||||||
|  | Roaming je dnes v Európe podľa eurokomisárky pre informačnú spoločnosť a médiá Viviane Redingovej pridrahý . | ||||||
|  | 
 | ||||||
|  | ak sa mobilní operátori na znížení prepojovacích poplatkov sami nedohodnú , Redingová im hrozí vypracovaním regulačných predpisov , o ktorých by Európsky parlament mohol rokovať ešte pred letnými prázdninami . | ||||||
|  | 
 | ||||||
|  | ak je dnes zákazník Orange Slovensko napríklad v Maďarsku a je prihlásený v miestnej sieti Vodafone , za minútový hovor na Slovensko zaplatí vyše 28 korún . | ||||||
|  | 
 | ||||||
|  | ak by bol však zákazníkom priamo Vodafonu v Maďarsku , hovor by ho vyšiel o polovicu lacnejšie . | ||||||
|  | 
 | ||||||
|  | --endtext | ||||||
|  | európska komisia včera súhlasila so štátnou podporou 525 miliónov korún pre Hornonitrianske Bane Prievidza . | ||||||
|  | 
 | ||||||
|  | štátna pomoc nesmeruje na krytie ťažobných nákladov , ale na krytie počiatočných investícií spojených so zefektívňovaním ťažby . | ||||||
|  | 
 | ||||||
|  | dotácia nepresahuje 30 percent predpokladaných investičných nákladov . | ||||||
|  | 
 | ||||||
|  | komisia vo vyhlásení oznámila , že túto vládnu dotáciu považuje za zlučiteľnú s fungovaním jednotného európskeho trhu . | ||||||
|  | 
 | ||||||
|  | eurokomisár pre energetiku Andris Piebalgs vyzdvihol význam domácej ťažby uhlia na zaistenie energie v únii a vyslovil sa za zefektívňovanie prevádzky baní . | ||||||
|  | hornonitrianske bane Prievidza sú dlhodobo jedným z najväčších poberateľov štátnej pomoci na Slovensku . | ||||||
|  | 
 | ||||||
|  | v rokoch 2001 až 2004 dostali od štátu viac ako štvrť miliardy korún vo forme dotácií a úľav . | ||||||
|  | 
 | ||||||
|  | od ťažby uhlia je závislá ekonomika regiónu horného Ponitria . | ||||||
|  | 
 | ||||||
|  | --endtext | ||||||
|  | i	189975	AP : Hyundai zmluvu s ČR podpíše doma	Ekonomika_a_firmy	2.5.2006 00:00 | ||||||
|  | juhokórejská automobilka Hyundai Motor podpíše dohodu s Českou republikou o výstavbe nového závodu za miliardu eur aj napriek škandálu týkajúceho sa sprenevery a úplatkárstva v spoločnosti Hyundai . | ||||||
|  | po finančnej kontrole v spoločnosti Hyundai a následnom zatknutí jej predsedu predstavenstva Čchunga Mong-kooa kórejská strana potvrdila , že dohodu o investícii plánuje podpísať v polovici mája . | ||||||
|  | 
 | ||||||
|  | informoval o tom hovorca českého ministerstva priemyslu a obchodu Ivo Mravinac . | ||||||
|  | 
 | ||||||
|  | miestom slávnostného podpísania dohody však nebude Česká republika , ale hlavné mesto Južnej Kórey , Soul . | ||||||
|  | 
 | ||||||
|  | --endtext | ||||||
|  | i	189977	Lukáš Pardubský : Telecom žaluje Protimonopolný úrad	Ekonomika_a_firmy	2.2.2006 00:00 | ||||||
|  | Slovak Telecom sa rozhodol brániť proti 885 - miliónovej pokute žalobou na Krajskom súde v Bratislave . | ||||||
|  | o sankcii rozhodla Rada Protimonopolného úradu koncom decembra 2005 s tým , že Telecom zneužil svoje dominantné postavenie , keď konkurencii neposkytol prístup k sústave jeho miestnych vedení . | ||||||
|  | 
 | ||||||
|  | Telecom žalobu podľa riaditeľa pre korporátnu komunikáciu Jána Kondáša podal 27. januára. . | ||||||
|  | 
 | ||||||
|  | v prípade pokuty išlo už o druhostupňové rozhodnutie úradu , pretože proti pôvodnému z mája minulého roka sa Telecom odvolal . | ||||||
|  | 
 | ||||||
|  | rada však verdikt potvrdila a ten nadobudol platnosť 16. januára. . | ||||||
|  | 
 | ||||||
|  | od tohto dátumu začala plynúť aj 30 - dňová lehota na uhradenie pokuty . | ||||||
|  | keďže Telecom platiť nechce , súčasťou žaloby je aj návrh na vydanie uznesenia , ktorým by sa vykonateľnosť rozhodnutia Protimonopolného úradu odložila . | ||||||
|  | 
 | ||||||
|  | spor operátora s úradom nie je prvý . | ||||||
|  | 
 | ||||||
|  | už v minulosti Telecom podobným postupom dosiahol oddialenie povinnosti zaplatiť pokutu 20 miliónov korún , ako aj rozhodnutia Telekomunikačného úradu o zákaze viazania služieb ADSL s hlasovými produktmi . | ||||||
|  | 
 | ||||||
|  | v druhom prípade sa malo viazanie ukončiť v októbri 2004 , reálne to však bude až v prvej polovici tohto roku . | ||||||
|  | 
 | ||||||
|  | --endtext | ||||||
		Loading…
	
		Reference in New Issue
	
	Block a user