lp832ut/zpwiki

forked from KEMT/zpwiki

dano 999607bb6b Update 'pages/students/2016/jakub_maruniak/README.md'

2020-04-09 09:23:51 +00:00

2.3 KiB

Raw Blame History

Jakub Maruniak

Rok začiatku štúdia: 2016

Diplomový projekt 1 2020

Úlohy na semester:

Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
Vybrať a pripraviť vhodné dáta na anotáciu
Anotovať sadu dát
Natrénovať a vyhodnotiť model

Stretnutie 9.3.2020:

Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation

Úlohy na ďalšie stretnutie:

Oboznámte sa s so systémom Docker
Rozbehajte si anotáciu z repozitára
Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít

Návrh možných entít na anotáciu:

OSOBA
MIESTO alebo politická geografická entita
ORGANIZACIA
PRODUKT
INE

Revízia 9.4.

Nové úlohy:

Podľa https://git.kemt.fei.tuke.sk/dano/annotation vytvorte skript pre anotáciu slovenských pomenovaných entít.
Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio
Uložte skript na GIT a pridajte odkaz do profilu

Tímový projekt 2019

Anotácia textových dát

Úlohy tímového projektu:

Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
citujte min. 10 najvýznamnejších bibliografických zdrojov

Písomná práca: Rešerš

Návrh na zadanie DP:

Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu.
Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.

Návrh na názov DP:

Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu

Spolupráca s projektom: