forked from KEMT/zpwiki
		
	update
This commit is contained in:
		
							parent
							
								
									d5280e1a82
								
							
						
					
					
						commit
						9d21a75d3a
					
				| @ -1,3 +1,8 @@ | ||||
| ## Update 05.05.2020 | ||||
| - upravený skript "punc.py" tak, že model načítava dáta zo súboru/ov | ||||
| - vytvorený skript "text.py", ktorý upraví dáta do vhodnej podoby (5 krokov) | ||||
| - vytvorený skript "tags.py", ktorý priradí každému symbolu jeden zo štvorice tagov (S, P, C, Q) | ||||
| 
 | ||||
| ## Update 09.04.2020 | ||||
| - Upravil som vzorový zdrojový kód, ktorý riešil Named-Entity Recognition, tak, aby dopĺňal interpunkciu. | ||||
| - Momentálne to funguje s ručne vpísanými trénovacími dátami a ručným "otagovaním", avšak iba pre bodku a otáznik. | ||||
|  | ||||
| @ -175,6 +175,7 @@ STOP_TAG = "<STOP>" | ||||
| EMBEDDING_DIM = 5 | ||||
| HIDDEN_DIM = 4 | ||||
| 
 | ||||
| ''' | ||||
| training_data = [( | ||||
|     "hovorí sa ,COM že ľudstvo postihuje nová epidémia ,COM šíriaca sa závratnou rýchlosťou .PER preto je dôležité vedieť čo to je ,COM ako jej predísť alebo ako ju odstrániť .PER".split(), | ||||
|     "S S C S S S S S C S S S S P S S S S S S S C S S S S S S S P".split() | ||||
| @ -182,6 +183,20 @@ training_data = [( | ||||
|     "nárast obezity je spôsobený najmä spôsobom života .PER tuky zlepšujú chuť do jedla a dávajú lepší pocit sýtosti ,COM uvedomte si však ,COM že všetky tuky sa Vám ukladajú ,COM pokiaľ ich nespálite .PER".split(), | ||||
|     "S S S S S S S P S S S S S S S S S S C S S S C S S S S S S C S S S P".split() | ||||
| )] | ||||
| ''' | ||||
| 
 | ||||
| with open('/home/dlindvai/work/text.txt', 'r') as text2: | ||||
| 	with open('/home/dlindvai/work/tags.txt', 'r') as tags2: | ||||
| 		text1 = text2.read().splitlines() | ||||
| 		tags1 = tags2.read().splitlines() | ||||
| 
 | ||||
| 		for line in text1: | ||||
| 			text = line.replace("['", "").replace("']", "") | ||||
| 		for line in tags1: | ||||
| 			tags = line.replace("['", "").replace("']", "") | ||||
| 
 | ||||
| training_data = [( text.split() , tags.split() )] | ||||
| #print(training_data) | ||||
| 
 | ||||
| word_to_ix = {} | ||||
| for sentence, tags in training_data: | ||||
| @ -189,7 +204,7 @@ for sentence, tags in training_data: | ||||
|         if word not in word_to_ix: | ||||
|             word_to_ix[word] = len(word_to_ix) | ||||
| 
 | ||||
| tag_to_ix = {"S": 0, "C": 1, "P": 2, "E": 3, START_TAG: 4, STOP_TAG: 5} | ||||
| tag_to_ix = {"S": 0, "C": 1, "P": 2, "Q": 3, START_TAG: 4, STOP_TAG: 5} | ||||
| 
 | ||||
| model = BiLSTM_CRF(len(word_to_ix), tag_to_ix, EMBEDDING_DIM, HIDDEN_DIM) | ||||
| optimizer = optim.SGD(model.parameters(), lr=0.01, weight_decay=1e-4) | ||||
| @ -199,7 +214,7 @@ with torch.no_grad(): | ||||
|     precheck_tags = torch.tensor([tag_to_ix[t] for t in training_data[0][1]], dtype=torch.long) | ||||
|     print("Predicted output before training: ", model(precheck_sent)) | ||||
| 
 | ||||
| for epoch in range(300):  # normally you would NOT do 300 epochs, but this is small dataset | ||||
| for epoch in range(30):  # normally you would NOT do 300 epochs, but this is small dataset | ||||
|     for sentence, tags in training_data: | ||||
|         # Step 1. Remember that Pytorch accumulates gradients. | ||||
|         # We need to clear them out before each instance | ||||
| @ -219,3 +234,4 @@ for epoch in range(300):  # normally you would NOT do 300 epochs, but this is sm | ||||
| with torch.no_grad(): | ||||
|     precheck_sent = prepare_sequence(training_data[0][0], word_to_ix) | ||||
|     print("Predicted output after training: ", model(precheck_sent)) | ||||
| 
 | ||||
|  | ||||
| @ -1,11 +0,0 @@ | ||||
| # coding: utf-8 | ||||
| #!/usr/bin/python | ||||
| 
 | ||||
| import codecs | ||||
| import sys | ||||
| 
 | ||||
| with codecs.open(sys.argv[2],'w') as out_txt: | ||||
|         with codecs.open(sys.argv[1],'r') as text: | ||||
|             for line in text: | ||||
|                 line = line.replace('.','PER').replace(',','COM').replace('?','QUE') | ||||
|                 out_txt.write(line) | ||||
							
								
								
									
										25
									
								
								pages/students/2016/darius_lindvai/dp2021/tags.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										25
									
								
								pages/students/2016/darius_lindvai/dp2021/tags.py
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,25 @@ | ||||
| import os | ||||
| import re | ||||
| 
 | ||||
| if os.path.exists('tags.txt'): | ||||
| 	os.remove('tags.txt') | ||||
| 
 | ||||
| with open('text.txt', 'r') as input_file: | ||||
| 	with open('tags.txt', 'a') as output_file: | ||||
| 		for line in input_file: | ||||
| 			for word in line.split(): | ||||
| 				if (word == '.PER'): | ||||
| 					word = word.replace(word, 'P') | ||||
| 					output_file.write(word + ' ') | ||||
| 
 | ||||
| 				elif (word == ',COM'): | ||||
| 					word = word.replace(word, 'C') | ||||
| 					output_file.write(word + ' ') | ||||
| 
 | ||||
| 				elif(word == '?QUE'): | ||||
| 					word = word.replace(word, 'Q') | ||||
| 					output_file.write(word + ' ') | ||||
| 
 | ||||
| 				else: | ||||
| 					word = word.replace(word, 'S') | ||||
| 					output_file.write(word + ' ') | ||||
							
								
								
									
										14
									
								
								pages/students/2016/darius_lindvai/dp2021/text.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										14
									
								
								pages/students/2016/darius_lindvai/dp2021/text.py
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,14 @@ | ||||
| import re | ||||
| import os | ||||
| 
 | ||||
| if os.path.exists('text.txt'): | ||||
| 	os.remove('text.txt') | ||||
| 
 | ||||
| with open('/home/dlindvai/work/train.txt', 'r') as input_file: | ||||
| 	with open('/home/dlindvai/work/text.txt', 'a') as output_file: | ||||
| 		for line in input_file: | ||||
| 			line = line.replace('\n', '') | ||||
| 			line = re.sub(r"([\w/'+$\s-]+|[^\w/'+$\s-]+)\s*", r"\1 ", line) | ||||
| 			line = line.lower() | ||||
| 			line = line.replace('.','.PER').replace(',',',COM').replace('?','?QUE') | ||||
| 			output_file.write(line) | ||||
							
								
								
									
										100
									
								
								pages/students/2016/darius_lindvai/dp2021/train.txt
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										100
									
								
								pages/students/2016/darius_lindvai/dp2021/train.txt
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,100 @@ | ||||
| prvé reaktory začali u nás fungovať v roku 1972 , fond vznikol až v roku 1995 . | ||||
| " vláda súhlasila s odstavením bohunického bloku V 1 ako obeť za vstup do Európskej únie a neumožnila , aby si naakumuloval prostriedky na svoju likvidáciu . | ||||
| 
 | ||||
| je naivné myslieť si , že chýbajúce zdroje zaplatí niekto iný ako občan . | ||||
| 
 | ||||
| či to bude zahrnuté v cene elektriny , alebo ako kapitola v štátnom rozpočte , " povedal hovorca elektrární Rastislav Petrech . | ||||
| 
 | ||||
| privatizáciu treba podľa súčasných dohôd uzatvoriť do konca apríla , dovtedy by mal byť vyriešený problém zákona aj v prípade prezidentovho veta . | ||||
| 
 | ||||
| okrem toho ešte treba vyradiť z majetku elektrární bohunické bloky pred odstavením a vodné dielo Gabčíkovo , ktoré je stále predmetom súdneho sporu s Maďarmi . | ||||
| ďalšie kroky v privatizácii : | ||||
| 
 | ||||
| - do dvoch týždňov doručia schválený návrh zákona o jadrovom účte | ||||
| 
 | ||||
| - prezident rozhodne do 15 dní | ||||
| 
 | ||||
| - v prípade veta budú poslanci o zákone rokovať znova na schôdzi 19. apríla . | ||||
| 
 | ||||
| - rezort hospodárstva musí z majetku SE vyčleniť aktíva v Bohuniciach a | ||||
| - privatizácia musí byť uzavretá do konca apríla | ||||
| 
 | ||||
| --endtext | ||||
| i	189811	TASR : IDC: Piráti brzdia ekonomiku	Ekonomika_a_firmy	9.12.2005 00:00 | ||||
| zníženie miery softvérového pirátstva na Slovensku zo súčasných 48 percent na 38 percent by mohlo vytvoriť 1400 nových pracovných miest . | ||||
| 
 | ||||
| viedlo by k ekonomickému rastu v hodnote 267 miliónov dolárov , čo je v prepočte 8,6 miliardy korún a daňovým príjmom vo výške 60 miliónov dolárov . | ||||
| 
 | ||||
| podľa záverov štúdie spoločnosti IDC by zníženie miery softvérového pirátstva mohlo naštartovať rast sektora informačných technológií . | ||||
| iDC predpokladá , že IT sektor by na Slovensku mohol do roku 2009 vzrásť o 59 percent . | ||||
| 
 | ||||
| pri 10 - percentnom znížení miery softvérového pirátstva by však tento rast mohol byť až 69 percent . | ||||
| 
 | ||||
| --endtext | ||||
| i	189874	Reuters : Operátori začnú zlacňovať roaming	Ekonomika_a_firmy	21.2.2006 00:00 | ||||
| telefonovanie z mobilu v zahraniční zrejme čoskoro zlacnie . | ||||
| 
 | ||||
| naznačujú to správy dvoch spriaznených mobilných operátorov skupiny Deutsche Telekom . | ||||
| výkonný riaditeľ nemeckého mobilného operátora T - Mobile Rene Obermann vyhlásil , že k zlacneniu roamingu pre nemeckých zákazníkov dôjde už na jar . | ||||
| 
 | ||||
| slovenský T - Mobile vzápätí oznámil , že " ceny roamingových sa budú znižovať " aj pre slovenských klientov . | ||||
| 
 | ||||
| podľa Juraja Drobu zo slovenského T - Mobilu spoločnosť pokročila v rokovaniach so zahraničnými mobilnými operátormi . | ||||
| 
 | ||||
| výsledkom rokovaní bude zníženie medzinárodných prepojovacích poplatkov u viacerých európskych operátorov súčasne . | ||||
| 
 | ||||
| jednotka na slovenskom trhu , spoločnosť Orange Slovakia sa zatiaľ k znižovaniu cien roamingu nevyjadruje . | ||||
| Roaming je dnes v Európe podľa eurokomisárky pre informačnú spoločnosť a médiá Viviane Redingovej pridrahý . | ||||
| 
 | ||||
| ak sa mobilní operátori na znížení prepojovacích poplatkov sami nedohodnú , Redingová im hrozí vypracovaním regulačných predpisov , o ktorých by Európsky parlament mohol rokovať ešte pred letnými prázdninami . | ||||
| 
 | ||||
| ak je dnes zákazník Orange Slovensko napríklad v Maďarsku a je prihlásený v miestnej sieti Vodafone , za minútový hovor na Slovensko zaplatí vyše 28 korún . | ||||
| 
 | ||||
| ak by bol však zákazníkom priamo Vodafonu v Maďarsku , hovor by ho vyšiel o polovicu lacnejšie . | ||||
| 
 | ||||
| --endtext | ||||
| európska komisia včera súhlasila so štátnou podporou 525 miliónov korún pre Hornonitrianske Bane Prievidza . | ||||
| 
 | ||||
| štátna pomoc nesmeruje na krytie ťažobných nákladov , ale na krytie počiatočných investícií spojených so zefektívňovaním ťažby . | ||||
| 
 | ||||
| dotácia nepresahuje 30 percent predpokladaných investičných nákladov . | ||||
| 
 | ||||
| komisia vo vyhlásení oznámila , že túto vládnu dotáciu považuje za zlučiteľnú s fungovaním jednotného európskeho trhu . | ||||
| 
 | ||||
| eurokomisár pre energetiku Andris Piebalgs vyzdvihol význam domácej ťažby uhlia na zaistenie energie v únii a vyslovil sa za zefektívňovanie prevádzky baní . | ||||
| hornonitrianske bane Prievidza sú dlhodobo jedným z najväčších poberateľov štátnej pomoci na Slovensku . | ||||
| 
 | ||||
| v rokoch 2001 až 2004 dostali od štátu viac ako štvrť miliardy korún vo forme dotácií a úľav . | ||||
| 
 | ||||
| od ťažby uhlia je závislá ekonomika regiónu horného Ponitria . | ||||
| 
 | ||||
| --endtext | ||||
| i	189975	AP : Hyundai zmluvu s ČR podpíše doma	Ekonomika_a_firmy	2.5.2006 00:00 | ||||
| juhokórejská automobilka Hyundai Motor podpíše dohodu s Českou republikou o výstavbe nového závodu za miliardu eur aj napriek škandálu týkajúceho sa sprenevery a úplatkárstva v spoločnosti Hyundai . | ||||
| po finančnej kontrole v spoločnosti Hyundai a následnom zatknutí jej predsedu predstavenstva Čchunga Mong-kooa kórejská strana potvrdila , že dohodu o investícii plánuje podpísať v polovici mája . | ||||
| 
 | ||||
| informoval o tom hovorca českého ministerstva priemyslu a obchodu Ivo Mravinac . | ||||
| 
 | ||||
| miestom slávnostného podpísania dohody však nebude Česká republika , ale hlavné mesto Južnej Kórey , Soul . | ||||
| 
 | ||||
| --endtext | ||||
| i	189977	Lukáš Pardubský : Telecom žaluje Protimonopolný úrad	Ekonomika_a_firmy	2.2.2006 00:00 | ||||
| Slovak Telecom sa rozhodol brániť proti 885 - miliónovej pokute žalobou na Krajskom súde v Bratislave . | ||||
| o sankcii rozhodla Rada Protimonopolného úradu koncom decembra 2005 s tým , že Telecom zneužil svoje dominantné postavenie , keď konkurencii neposkytol prístup k sústave jeho miestnych vedení . | ||||
| 
 | ||||
| Telecom žalobu podľa riaditeľa pre korporátnu komunikáciu Jána Kondáša podal 27. januára. . | ||||
| 
 | ||||
| v prípade pokuty išlo už o druhostupňové rozhodnutie úradu , pretože proti pôvodnému z mája minulého roka sa Telecom odvolal . | ||||
| 
 | ||||
| rada však verdikt potvrdila a ten nadobudol platnosť 16. januára. . | ||||
| 
 | ||||
| od tohto dátumu začala plynúť aj 30 - dňová lehota na uhradenie pokuty . | ||||
| keďže Telecom platiť nechce , súčasťou žaloby je aj návrh na vydanie uznesenia , ktorým by sa vykonateľnosť rozhodnutia Protimonopolného úradu odložila . | ||||
| 
 | ||||
| spor operátora s úradom nie je prvý . | ||||
| 
 | ||||
| už v minulosti Telecom podobným postupom dosiahol oddialenie povinnosti zaplatiť pokutu 20 miliónov korún , ako aj rozhodnutia Telekomunikačného úradu o zákaze viazania služieb ADSL s hlasovými produktmi . | ||||
| 
 | ||||
| v druhom prípade sa malo viazanie ukončiť v októbri 2004 , reálne to však bude až v prvej polovici tohto roku . | ||||
| 
 | ||||
| --endtext | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user