Jakub Maruniak

Rok začiatku štúdia: 2016

Diplomový projekt 1 2020

Výstupy (18.6.2020):

Úlohy na semester:

Virtuálne stretnutie 15.5.2020:

Úlohy:

vytvoriť do repozitára annotation adresár ner so všetkým potrebným pre spustenie slovenskej ner schémy (skripty, vzorové textové dáta).
vyriešiť problém so spacy modelom.

Revízia 21.4.:

Revízia 9.4. a 17.4.

Nové úlohy:

vytvorte skript pre anotáciu slovenských pomenovaných entít.
- Pozrite si https://prodi.gy/docs/named-entity-recognition (aj video)
- Spustite schému "Manual annotation with suggestions from a model" (použite aj príklady
Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio
- Urobte skript, ktorý zmení wiki dáta do spacy formátu
- Uložte skript na GIT a pridajte odkaz do profilu

Stretnutie 9.3.2020:

Úlohy na ďalšie stretnutie:

Oboznámte sa s so systémom Docker
Rozbehajte si anotáciu z repozitára
Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít

Návrh možných entít na anotáciu:

Úlohy tímového projektu:

Písomná práca: Rešerš

Návrh na zadanie DP:

Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu.
Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.

Návrh na názov DP:

Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu

Spolupráca s projektom: