forked from KEMT/zpwiki
		
	Upload files to 'pages/students/2019/michal_stromko/dp2024'
This commit is contained in:
		
							parent
							
								
									ae45f0467a
								
							
						
					
					
						commit
						670cf1a222
					
				| @ -0,0 +1,23 @@ | |||||||
|  | # Slovak Categorized News Corpus | ||||||
|  | 
 | ||||||
|  | ## Poznámky | ||||||
|  | - článok opisuje vytvorenie a používanie slovenského kategorizovaného korpusu z novynových článkov pre rôzne v NLP | ||||||
|  | - dáta boli zbierané pomocou bota a boli použité funkcie, ktoré realizovali detekciu hraníc slov a viet, rozpoznávanie entít, morfologické zakončenia, lemantizáciu do hovorenej formy. | ||||||
|  | - Výsledný korpus obsahuje 1,5 milióna tokenov a 102 tisíc viet, rozdelených do šiestich kategórii. | ||||||
|  | - Kategórie korpusu: | ||||||
|  |     - politika | ||||||
|  |     - šport | ||||||
|  |     - kultúra | ||||||
|  |     - ekonomika | ||||||
|  |     - zdravotníctvo | ||||||
|  |     - svet | ||||||
|  | 
 | ||||||
|  | - Korpus môže byť použitý na automatické extrahovanie entít, hodnotenie jazykových modelov, kategorizáciu dokumentov, lingvistický výskum | ||||||
|  | 
 | ||||||
|  | ### Lemantizácia | ||||||
|  | - je proces v NLP, ktoré zahŕňa premenovanie slov na ich základnú formu (koreň slova), tento proces je užitočný pri analýze textu, pretože umožňuje porovnávať a analyzovať rôzne formy toho istého slova ako jednu entitu.  | ||||||
|  | - pre tento článok môžeme povedať, žš každý token (slovo, alebo časť slova) v korpuse má priradenú najpravdepodobnejšiu lemu | ||||||
|  | 
 | ||||||
|  | # Transcription to a Spoken Form | ||||||
|  | - je sémantické zobrazenie hovoreného jazyka vo forme písaného textu. Transkripcia by nemala byť zamieňaná s prekladom, ktorý znamená preloženie významu textu z jedného jazyka do druhého jazyka | ||||||
|  | - transkripcia sa často používa pri prepisovaní audio a video súborov | ||||||
		Loading…
	
		Reference in New Issue
	
	Block a user