History

dano 999607bb6b Update 'pages/students/2016/jakub_maruniak/README.md'		2020-04-09 09:23:51 +00:00
..
dp2021	Nahrát soubory do „pages/students/2016/jakub_maruniak/dp2021“	2020-04-05 11:11:56 +00:00
timovy_projekt	Aktualizovat "pages/students/2016/jakub_maruniak/timovy_projekt/README.md	2019-12-16 09:54:20 +00:00
README.md	Update 'pages/students/2016/jakub_maruniak/README.md'	2020-04-09 09:23:51 +00:00

Jakub Maruniak

Rok začiatku štúdia: 2016

Diplomový projekt 1 2020

Úlohy na semester:

Stretnutie 9.3.2020:

Úlohy na ďalšie stretnutie:

Oboznámte sa s so systémom Docker
Rozbehajte si anotáciu z repozitára
Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít

Návrh možných entít na anotáciu:

Revízia 9.4.

Nové úlohy:

Podľa https://git.kemt.fei.tuke.sk/dano/annotation vytvorte skript pre anotáciu slovenských pomenovaných entít.
Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio
Uložte skript na GIT a pridajte odkaz do profilu

Úlohy tímového projektu:

Písomná práca: Rešerš

Návrh na zadanie DP:

Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu.
Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.

Návrh na názov DP:

Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu

Spolupráca s projektom: