diff --git a/pages/students/2019/michal_stromko/dp2024/SlovakCategorizedNewsCorpus.md b/pages/students/2019/michal_stromko/dp2024/SlovakCategorizedNewsCorpus.md
new file mode 100644
index 0000000000..6bb8049ed3
--- /dev/null
+++ b/pages/students/2019/michal_stromko/dp2024/SlovakCategorizedNewsCorpus.md
@@ -0,0 +1,23 @@
+# Slovak Categorized News Corpus
+
+## Poznámky
+- článok opisuje vytvorenie a používanie slovenského kategorizovaného korpusu z novynových článkov pre rôzne v NLP
+- dáta boli zbierané pomocou bota a boli použité funkcie, ktoré realizovali detekciu hraníc slov a viet, rozpoznávanie entít, morfologické zakončenia, lemantizáciu do hovorenej formy.
+- Výsledný korpus obsahuje 1,5 milióna tokenov a 102 tisíc viet, rozdelených do šiestich kategórii.
+- Kategórie korpusu:
+    - politika
+    - šport
+    - kultúra
+    - ekonomika
+    - zdravotníctvo
+    - svet
+
+- Korpus môže byť použitý na automatické extrahovanie entít, hodnotenie jazykových modelov, kategorizáciu dokumentov, lingvistický výskum
+
+### Lemantizácia
+- je proces v NLP, ktoré zahŕňa premenovanie slov na ich základnú formu (koreň slova), tento proces je užitočný pri analýze textu, pretože umožňuje porovnávať a analyzovať rôzne formy toho istého slova ako jednu entitu. 
+- pre tento článok môžeme povedať, žš každý token (slovo, alebo časť slova) v korpuse má priradenú najpravdepodobnejšiu lemu
+
+# Transcription to a Spoken Form
+- je sémantické zobrazenie hovoreného jazyka vo forme písaného textu. Transkripcia by nemala byť zamieňaná s prekladom, ktorý znamená preloženie významu textu z jedného jazyka do druhého jazyka
+- transkripcia sa často používa pri prepisovaní audio a video súborov
\ No newline at end of file