25 lines
		
	
	
		
			1.6 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			25 lines
		
	
	
		
			1.6 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ## Update 05.06.2020
 | |
| - pridaný čas začiatku a čas ukončenia trénovania, aby bolo možné určit, ako dlho trénovanie trvalo
 | |
| - upravený skript na úpravu textu do vhodnej podoby (skombinoval som môj vlastný skript s jedným voľne dostupným na internete, aby bola úprava textu presnejšia)
 | |
| - pridaný tag na identifikáciu čísel v texte ("N"), čo by teoreticky mohlo zvýšiť presnosť modelu
 | |
| - vyriešený výpočet precision, recall a f-score (problém som vyriešil tak, že som najprv zo skutočných hodnôt urobil tensor, ktorý som následne konvertoval na numpy pole)
 | |
| 
 | |
| ## Update 05.05.2020
 | |
| - upravený skript "punc.py" tak, že model načítava dáta zo súboru/ov
 | |
| - vytvorený skript "text.py", ktorý upraví dáta do vhodnej podoby (5 krokov)
 | |
| - vytvorený skript "tags.py", ktorý priradí každému symbolu jeden zo štvorice tagov (S, P, C, Q)
 | |
| 
 | |
| ## Update 09.04.2020
 | |
| - Upravil som vzorový zdrojový kód, ktorý riešil Named-Entity Recognition, tak, aby dopĺňal interpunkciu.
 | |
| - Momentálne to funguje s ručne vpísanými trénovacími dátami a ručným "otagovaním", avšak iba pre bodku a otáznik.
 | |
| - Keď som skúšal použiť dáta, kde bol aj otáznik, ale namiesto otáznika model doplňoval bodku.
 | |
| 
 | |
| vysvetlenie zápisu dát:
 | |
| - v texte som nahradil interpunciu slovami, resp. skratkami ('.' -> 'PER', ',' -> 'COM', '?' -> '.QUE')
 | |
| - sekvencie slov som označil ako "S", nerozlišoval som slovné druhy
 | |
| - interpunkčné znamienka som označil ako "C" (pre čiarku), "P" (pre bodku) a "Q" (pre otáznik)
 | |
| 
 | |
| vysvetlenie výstupu: 
 | |
| - Prvý tensor je predikcia modelu pred trénovaním.
 | |
| - Druhý tensor je predikcia po trénovaní.
 |