Upload files to 'pages/students/2019/michal_stromko/dp2024'

2023-10-18 15:34:29 +00:00 · 2023-10-18 15:34:29 +00:00 · 670cf1a222
commit 670cf1a222
parent ae45f0467a
1 changed files with 23 additions and 0 deletions
--- a/pages/students/2019/michal_stromko/dp2024/SlovakCategorizedNewsCorpus.md
+++ b/pages/students/2019/michal_stromko/dp2024/SlovakCategorizedNewsCorpus.md
@ -0,0 +1,23 @@
 # Slovak Categorized News Corpus
 ## Poznámky
 - článok opisuje vytvorenie a používanie slovenského kategorizovaného korpusu z novynových článkov pre rôzne v NLP
 - dáta boli zbierané pomocou bota a boli použité funkcie, ktoré realizovali detekciu hraníc slov a viet, rozpoznávanie entít, morfologické zakončenia, lemantizáciu do hovorenej formy.
 - Výsledný korpus obsahuje 1,5 milióna tokenov a 102 tisíc viet, rozdelených do šiestich kategórii.
 - Kategórie korpusu:
    - politika
    - šport
    - kultúra
    - ekonomika
    - zdravotníctvo
    - svet
 - Korpus môže byť použitý na automatické extrahovanie entít, hodnotenie jazykových modelov, kategorizáciu dokumentov, lingvistický výskum
 ### Lemantizácia
 - je proces v NLP, ktoré zahŕňa premenovanie slov na ich základnú formu (koreň slova), tento proces je užitočný pri analýze textu, pretože umožňuje porovnávať a analyzovať rôzne formy toho istého slova ako jednu entitu. 
 - pre tento článok môžeme povedať, žš každý token (slovo, alebo časť slova) v korpuse má priradenú najpravdepodobnejšiu lemu
 # Transcription to a Spoken Form
 - je sémantické zobrazenie hovoreného jazyka vo forme písaného textu. Transkripcia by nemala byť zamieňaná s prekladom, ktorý znamená preloženie významu textu z jedného jazyka do druhého jazyka
 - transkripcia sa často používa pri prepisovaní audio a video súborov