pm623gs/zpwiki

Fork 0

forked from KEMT/zpwiki

dano a92b39ad18 Update 'pages/students/2016/jakub_maruniak/README.md'

2020-11-27 09:12:04 +00:00

7.3 KiB

Raw Blame History

title

published

taxonomy

Jakub Maruniak

true

Jakub Maruniak

Rok začiatku štúdia: 2016

Diplomový projekt 2

Ciele:

Anotovať sadu dát s použitím produkčnej anotačnej schémy, natrénovať a vyhodnotiť model.

Zásobník úloh:

Použiť model na podporu anotácie
Do konca ZS vytvoriť report vo forme článku.

Virtuálne stretnutie 27.11.2020:

Zatiaľ zostávame pri ručnej extrakcii dát z anotačnej schémy.
Vypracovaná tabuľka s experimentami
Dáta a skripty

Virtuálne stretnutie 13.11.2020:

výsledky skopírované do adresára
prečítané 3 články - porovnanie manuálnej anotácie a poloautomatickej.
začiatok práce na skripte pre počítanie anotovaných entít, treba ešte vylepšiť aby vznikla tabuľka.
anotačná schéma vyzerá byť v poriadku, niektoré články treba odfiltrovať (zoznam obrázkov, prázdna kategória, nadpis).

Úlohy do ďalšieho stretnutia:

vytvoriť spôsob pre získanie dát z produkčnej anotačnej schémy. (pre vedúceho)
vytvorte ďalšie anotácie.
Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?
Vytvorte tabuľku kde uvediete presnosť modelu s rôznym množstvom anotovaných dát.
Aký je najlepší spôsob vyhodnotnenia? Vytvoriť jednotnú testovaciu množinu. Druhý spôsob je použiť "10 fold cross validation" (Všetky dáta sa rozdelia na 10 častí, 9 sa využije pri trénovaní, 1 pri testovaní. Trénovanie sa opakuje 10 krát stále pre inú testovaciu množinu, výsledky sa spriemerujú).

Virtuálne stretnutie 30.10.2020:

Stav:

Vylepšený návod
Vyskúšaný export dát a trénovanie modelu z databázy. Problém pri trénovaní Spacy - iné výsledky ako cez Prodigy trénovanie
Práca na textovej časti.

Úlohy do ďalšieho stretnutia:

Vytvorte si repozitár s názvom dp2021 a tam pridajte skripty a poznámky.
Pokračujte v písaní práce. Vykonajte prieskum literatúry "named entity corpora" aj poznámky.
Vytvorte systém pre zistenie množstva a druhu anotovaných dát. Koľko článkov? Koľko entít jednotlivvých typov? Výsledná tabuľka pôjde do práce.
Pripraviť sa na produkčné anotácie. Je schéma pripravená?

Virtuálne stretnutie 16.10.2020:

Stav:

Spísané stručné poznámky k procesu anotácie
Pokusne anotovaných niekoľko článkov

Úlohy na ďálšie stretnutie:

Vylepšiť oficiálny návod na anotáciu NER https://zp.kemt.fei.tuke.sk/topics/named-entity/navod podľa poznámok a skúsenosti pri anotácii. Pridajte pravidlá pre učenie Accept a Reject článku. Ktorý paragraf je vhodný na anotáciu?
Pripraviť skript na výber anotovaných dát z databázy a úpravu do podoby vhodnej pre trénovanie.
Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?
Pokračujte v písaní DP.

Virtuálne stretnutie 9.10.2020:

Stav:

Vyskúšané trénovanie modelu podľa repozitára spacy-skmodel
Začiatok práce na textovej časti (vo Worde do šablóny ZP).

Úlophy na ďalšie stretnutie:

Prečítajte si návod na anotáciu a navrhnite zlepšenia návodu. Cieľ je napísať presnú metodiku anotácie.
Pokusne antujte niekoľko článkov, spíšte problémové miesta.

Stretnutie 25.9.2020:

Urobené:

Oboznámenie sa procesom anotácie NER

Úlohy na ďalšie stretnutie:

Natrénovať a vyhodnotiť model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
začať pracovať na textovej časti podľa https://www.ieee.org/conferences/publishing/templates.html

Návrhny na zlepšenie:

Je potrebné rozbehať produkčnú anotáciu NER

Diplomový projekt 1 2020

Výstupy (18.6.2020):

Úlohy na semester:

Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
Vybrať a pripraviť vhodné dáta na anotáciu

Stretnutie 30.6.2020:

Dodaný korpus 1300 viet
Je dobré dáta rozdeliť na vety (odporúčanie, ľahšie sa sleduje anotované množstvo).

Virtuálne stretnutie 15.5.2020:

Rozbehaná slovenská anotačná schéma pre pomenované entity
Problém so slovenským NER modelom z wiki dát

Úlohy:

vytvoriť do repozitára annotation adresár ner so všetkým potrebným pre spustenie slovenskej ner schémy (skripty, vzorové textové dáta).
vyriešiť problém so spacy modelom.

Revízia 21.4.:

Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation

Revízia 9.4. a 17.4.

Nové úlohy:

vytvorte skript pre anotáciu slovenských pomenovaných entít.
- Pozrite si https://prodi.gy/docs/named-entity-recognition (aj video)
- Spustite schému "Manual annotation with suggestions from a model" (použite aj príklady
Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio
- Urobte skript, ktorý zmení wiki dáta do spacy formátu
- Uložte skript na GIT a pridajte odkaz do profilu

Stretnutie 9.3.2020:

Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation

Úlohy na ďalšie stretnutie:

Oboznámte sa s so systémom Docker
Rozbehajte si anotáciu z repozitára
Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít

Návrh možných entít na anotáciu:

OSOBA
MIESTO alebo politická geografická entita
ORGANIZACIA
PRODUKT
INE

Tímový projekt 2019

Anotácia textových dát

Úlohy tímového projektu:

Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
citujte min. 10 najvýznamnejších bibliografických zdrojov

Písomná práca: Rešerš

Návrh na zadanie DP:

Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu.
Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.

Návrh na názov DP:

Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu

Spolupráca s projektom:

7.3 KiB Raw Blame History

Jakub Maruniak

Diplomový projekt 2

Diplomový projekt 1 2020

Tímový projekt 2019

Anotácia textových dát

7.3 KiB

Raw Blame History