forked from KEMT/zpwiki
		
	Update 'pages/topics/named-entity/README.md'
This commit is contained in:
		
							parent
							
								
									7895dd7ba3
								
							
						
					
					
						commit
						518e06d192
					
				| @ -3,6 +3,27 @@ title: Pomenované entity | ||||
| --- | ||||
| 
 | ||||
| # Pomenované entity | ||||
| ## Stretnutia | ||||
| 
 | ||||
| 11.8.2020 | ||||
| 
 | ||||
| Rozdelíme wikicorpus na 100 častí. | ||||
| 
 | ||||
| Nebudeme riešiť doménový bias vo wikipédii. | ||||
| 
 | ||||
| Budeme riešiť bias na dĺžku článkov. | ||||
| 
 | ||||
| Tagová značka asi: LOC, MISC, ORG, PER. | ||||
| 
 | ||||
| Peter sa pozrie na wikiextraktor. | ||||
| 
 | ||||
| Daniel: | ||||
| 
 | ||||
| - vyrieši šablóny | ||||
| - vypočíta štatistiky o dĺžke paragrafov | ||||
| - navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku. | ||||
| 
 | ||||
| ## Úlohy | ||||
| 
 | ||||
| ### Príprava dát | ||||
| 
 | ||||
| @ -16,10 +37,10 @@ Výstup: Množina dokumentov pre anotáciu | ||||
| urobené: | ||||
| 
 | ||||
| - Parsovanie XML Wiki DUMP  | ||||
| - Skript pre extrakciu paragrafov. | ||||
| 
 | ||||
| urobiť: | ||||
| 
 | ||||
| - Skript pre extrakciu paragrafov. | ||||
| - Filter pre vyradenie článkov a paragrafov. | ||||
| - Ručný výber článkov. | ||||
| 
 | ||||
|  | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user