dmytro_ushatenko/pages/students/2016/jakub_maruniak/README.md

8.6 KiB

title published taxonomy
Jakub Maruniak true
category tag author
dp2021
bp2019
spacy
ner
annotation
nlp
Daniel Hladek

Jakub Maruniak

Rok začiatku štúdia: 2016

Návrh na názov DP:

Anotácia a rozpoznávanie pomenovaných entít v slovenskom jazyku.

Návrh na zadanie DP:

  1. Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí. Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy.
  2. Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
  3. Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
  4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.

Spolupráca s projektom:

Diplomový projekt 2

Ciele:

  • Anotovať sadu dát s použitím produkčnej anotačnej schémy, natrénovať a vyhodnotiť model.

Zásobník úloh:

  • Použiť model na podporu anotácie
  • Do konca ZS vytvoriť report vo forme článku.

Stretnutie 12.2.:

  • Prebrali sme článok. Treba vyhodiť a popresúvať niektoré časti, inak v poriadku.

Do budúceho stretnutia:

  • Vybrať vhodný časopis na publikovanie
  • Využiť pri trénovaní ďalšie anotované dáta.

Stretnutie 20.1.

Preberanie draftu práce.

  • Do článku vyradiť príliš všeobecné časti - napr. o strojovom učení.
  • V úvode zadefinujte problém, pojmy a bežné spôsoby riešenia problému. Čo je korpus? Ako sa vyrába? Na čo a ako sa používa?
  • V jadre predstavte Vaše riešenie. Ako vyzerá korpus? Ako ste ho urobili?
  • Na konci definujte metodiku vyhodnotenia, vyhodnotte riešenie a navrhnite zlepšenia. Akú presnosť má model vytvorený s pomocou korpusu?

Virtuálne stretnutie 18.12.2021:

Stav:

  • Vytvorené anotácie do databázy, cca 1700 jednotiek.
  • Začiatok článku.

Virtuálne stretnutie 27.11.2020:

Úlohy:

  • Pracovať na ďalších anotáciách, zlepšiť presnosť modelu.
  • Urobiť ďalšie experimenty.
  • Začať pracovať na článku. Niečo podobné ako Znalosti, alebo AEI. šablóna ieee alebo llncs.

Stretnutie 20.1.2021

  • Draft článku

Virtuálne stretnutie 13.11.2020:

  • výsledky skopírované do adresára
  • prečítané 3 články - porovnanie manuálnej anotácie a poloautomatickej.
  • začiatok práce na skripte pre počítanie anotovaných entít, treba ešte vylepšiť aby vznikla tabuľka.
  • anotačná schéma vyzerá byť v poriadku, niektoré články treba odfiltrovať (zoznam obrázkov, prázdna kategória, nadpis).

Úlohy do ďalšieho stretnutia:

  • vytvoriť spôsob pre získanie dát z produkčnej anotačnej schémy. (pre vedúceho)
  • vytvorte ďalšie anotácie.
  • Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?
  • Vytvorte tabuľku kde uvediete presnosť modelu s rôznym množstvom anotovaných dát.
  • Aký je najlepší spôsob vyhodnotnenia? Vytvoriť jednotnú testovaciu množinu. Druhý spôsob je použiť "10 fold cross validation" (Všetky dáta sa rozdelia na 10 častí, 9 sa využije pri trénovaní, 1 pri testovaní. Trénovanie sa opakuje 10 krát stále pre inú testovaciu množinu, výsledky sa spriemerujú).

Virtuálne stretnutie 30.10.2020:

Stav:

  • Vylepšený návod
  • Vyskúšaný export dát a trénovanie modelu z databázy. Problém pri trénovaní Spacy - iné výsledky ako cez Prodigy trénovanie
  • Práca na textovej časti.

Úlohy do ďalšieho stretnutia:

  • Vytvorte si repozitár s názvom dp2021 a tam pridajte skripty a poznámky.
  • Pokračujte v písaní práce. Vykonajte prieskum literatúry "named entity corpora" aj poznámky.
  • Vytvorte systém pre zistenie množstva a druhu anotovaných dát. Koľko článkov? Koľko entít jednotlivvých typov? Výsledná tabuľka pôjde do práce.
  • Pripraviť sa na produkčné anotácie. Je schéma pripravená?

Virtuálne stretnutie 16.10.2020:

Stav:

  • Spísané stručné poznámky k procesu anotácie
  • Pokusne anotovaných niekoľko článkov

Úlohy na ďálšie stretnutie:

  • Vylepšiť oficiálny návod na anotáciu NER https://zp.kemt.fei.tuke.sk/topics/named-entity/navod podľa poznámok a skúsenosti pri anotácii. Pridajte pravidlá pre učenie Accept a Reject článku. Ktorý paragraf je vhodný na anotáciu?
  • Pripraviť skript na výber anotovaných dát z databázy a úpravu do podoby vhodnej pre trénovanie.
  • Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?
  • Pokračujte v písaní DP.

Virtuálne stretnutie 9.10.2020:

Stav:

  • Vyskúšané trénovanie modelu podľa repozitára spacy-skmodel
  • Začiatok práce na textovej časti (vo Worde do šablóny ZP).

Úlophy na ďalšie stretnutie:

  • Prečítajte si návod na anotáciu a navrhnite zlepšenia návodu. Cieľ je napísať presnú metodiku anotácie.
  • Pokusne antujte niekoľko článkov, spíšte problémové miesta.

Stretnutie 25.9.2020:

Urobené:

Oboznámenie sa procesom anotácie NER

Úlohy na ďalšie stretnutie:

Návrhny na zlepšenie:

Je potrebné rozbehať produkčnú anotáciu NER

Diplomový projekt 1 2020

Výstupy (18.6.2020):

Úlohy na semester:

  • Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
  • Vybrať a pripraviť vhodné dáta na anotáciu

Stretnutie 30.6.2020:

  • Dodaný korpus 1300 viet
  • Je dobré dáta rozdeliť na vety (odporúčanie, ľahšie sa sleduje anotované množstvo).

Virtuálne stretnutie 15.5.2020:

  • Rozbehaná slovenská anotačná schéma pre pomenované entity
  • Problém so slovenským NER modelom z wiki dát

Úlohy:

  • vytvoriť do repozitára annotation adresár ner so všetkým potrebným pre spustenie slovenskej ner schémy (skripty, vzorové textové dáta).
  • vyriešiť problém so spacy modelom.

Revízia 21.4.:

Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation

Revízia 9.4. a 17.4.

Nové úlohy:

Stretnutie 9.3.2020:

Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation

Úlohy na ďalšie stretnutie:

  • Oboznámte sa s so systémom Docker
  • Rozbehajte si anotáciu z repozitára
  • Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít

Návrh možných entít na anotáciu:

  • OSOBA
  • MIESTO alebo politická geografická entita
  • ORGANIZACIA
  • PRODUKT
  • INE

Tímový projekt 2019

Anotácia textových dát

Úlohy tímového projektu:

  • Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
  • citujte min. 10 najvýznamnejších bibliografických zdrojov

Písomná práca: Rešerš