diff --git a/pages/students/2016/jakub_maruniak/README.md b/pages/students/2016/jakub_maruniak/README.md index 1754ec2f..ab9de21d 100644 --- a/pages/students/2016/jakub_maruniak/README.md +++ b/pages/students/2016/jakub_maruniak/README.md @@ -8,9 +8,32 @@ taxonomy: --- # Jakub Maruniak - *Rok začiatku štúdia*: 2016 + +*Návrh na názov DP*: + +Anotácia a rozpoznávanie pomenovaných entít v slovenskom jazyku. + +*Návrh na zadanie DP*: + +1. Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí. Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy. +2. Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka. +3. Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy. +4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora. + +*Spolupráca s projektom*: + +- [Podpora slovenčiny v Spacy](/topics/spacy) +- [Anotácia textových dát](/topics/prodigy) +- [Rozpoznávanie pomenovaných entít](/topics/named-entity) +- [Spracovanie prir. jazyka](/topics/nlp) +- [Programovanie v jazyku Python](/topics/python) + + + + + ## Diplomový projekt 2 Ciele: @@ -206,21 +229,3 @@ Návrh možných entít na anotáciu: *Písomná práca*: [Rešerš](./timovy_projekt) -*Návrh na zadanie DP*: - -1. Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu. -2. Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka. -3. Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy. -4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora. - -*Návrh na názov DP*: - -Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu - -*Spolupráca s projektom*: - -- [Podpora slovenčiny v Spacy](/topics/spacy) -- [Anotácia textových dát](/topics/prodigy) -- [Rozpoznávanie pomenovaných entít](/topics/named-entity) -- [Spracovanie prir. jazyka](/topics/nlp) -- [Programovanie v jazyku Python](/topics/python)