# Jakub Maruniak *Rok začiatku štúdia*: 2016 ## Tímový projekt 2019 #### Anotácia textových dát *Úlohy tímového projektu*: - Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing" - citujte min. 10 najvýznamnejších bibliografických zdrojov *Písomná práca*: [Rešerš](./timovy_projekt) *Návrh na zadanie DP*: - Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu. - Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka. - Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy. - Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora. *Návrh na názov DP*: Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu a s využitím knižnice Spacy *Spolupráca s projektom*: - [Podpora slovenčiny v Spacy](/topics/spacy) - [Anotácia textových dát](/topics/prodigy) - [Rozpoznávanie pomenovaných entít](/topics/named-entity) - [Spracovanie prir. jazyka](/topics/nlp) - [Programovanie v jazyku Python](/topics/python)