forked from KEMT/zpwiki
Upload files to 'pages/students/2019/michal_stromko/dp2024'
This commit is contained in:
parent
ae45f0467a
commit
670cf1a222
@ -0,0 +1,23 @@
|
|||||||
|
# Slovak Categorized News Corpus
|
||||||
|
|
||||||
|
## Poznámky
|
||||||
|
- článok opisuje vytvorenie a používanie slovenského kategorizovaného korpusu z novynových článkov pre rôzne v NLP
|
||||||
|
- dáta boli zbierané pomocou bota a boli použité funkcie, ktoré realizovali detekciu hraníc slov a viet, rozpoznávanie entít, morfologické zakončenia, lemantizáciu do hovorenej formy.
|
||||||
|
- Výsledný korpus obsahuje 1,5 milióna tokenov a 102 tisíc viet, rozdelených do šiestich kategórii.
|
||||||
|
- Kategórie korpusu:
|
||||||
|
- politika
|
||||||
|
- šport
|
||||||
|
- kultúra
|
||||||
|
- ekonomika
|
||||||
|
- zdravotníctvo
|
||||||
|
- svet
|
||||||
|
|
||||||
|
- Korpus môže byť použitý na automatické extrahovanie entít, hodnotenie jazykových modelov, kategorizáciu dokumentov, lingvistický výskum
|
||||||
|
|
||||||
|
### Lemantizácia
|
||||||
|
- je proces v NLP, ktoré zahŕňa premenovanie slov na ich základnú formu (koreň slova), tento proces je užitočný pri analýze textu, pretože umožňuje porovnávať a analyzovať rôzne formy toho istého slova ako jednu entitu.
|
||||||
|
- pre tento článok môžeme povedať, žš každý token (slovo, alebo časť slova) v korpuse má priradenú najpravdepodobnejšiu lemu
|
||||||
|
|
||||||
|
# Transcription to a Spoken Form
|
||||||
|
- je sémantické zobrazenie hovoreného jazyka vo forme písaného textu. Transkripcia by nemala byť zamieňaná s prekladom, ktorý znamená preloženie významu textu z jedného jazyka do druhého jazyka
|
||||||
|
- transkripcia sa často používa pri prepisovaní audio a video súborov
|
Loading…
Reference in New Issue
Block a user