2020-10-01 13:33:21 +00:00
---
title: Jakub Maruniak
published: true
taxonomy:
2020-10-01 13:46:14 +00:00
category: [dp2021,bp2019]
2020-10-16 07:20:23 +00:00
tag: [spacy,ner,annotation,nlp]
2020-10-01 13:33:21 +00:00
author: Daniel Hladek
---
2020-01-31 07:58:13 +00:00
# Jakub Maruniak
2020-03-09 10:38:01 +00:00
2020-09-25 09:07:24 +00:00
*Rok začiatku štúdia*: 2016
2020-06-18 13:33:46 +00:00
2021-02-09 14:30:02 +00:00
*Návrh na názov DP*:
Anotácia a rozpoznávanie pomenovaných entít v slovenskom jazyku.
2021-09-30 08:58:12 +00:00
[CRZP ](https://opac.crzp.sk/?fn=detailBiblioForm&sid=ECC3D3F0B3159C4F3217EC027BE4 )
2021-02-09 14:30:02 +00:00
1. Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí. Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy.
2. Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
3. Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.
*Spolupráca s projektom*:
- [Podpora slovenčiny v Spacy ](/topics/spacy )
- [Anotácia textových dát ](/topics/prodigy )
- [Rozpoznávanie pomenovaných entít ](/topics/named-entity )
- [Spracovanie prir. jazyka ](/topics/nlp )
- [Programovanie v jazyku Python ](/topics/python )
2021-03-12 12:57:43 +00:00
## Diplomová práca 2021
Stretnutie 12.3.
Stav:
- Anotovanie dát, vykonané experimenty s trénovaním.
- Dosiahli sme presnosť cca 72 percent.
- Výsledky sú zhrnuté v tabuľke.
Úlohy:
- Píšte prácu.
2021-03-12 13:01:17 +00:00
- Uložte trénovacie skripty na GIT.
2021-02-09 14:30:02 +00:00
2020-09-25 09:07:24 +00:00
## Diplomový projekt 2
2020-06-30 07:55:27 +00:00
2020-10-16 07:29:17 +00:00
Ciele:
- Anotovať sadu dát s použitím produkčnej anotačnej schémy, natrénovať a vyhodnotiť model.
2020-06-30 07:55:27 +00:00
Zásobník úloh:
- Použiť model na podporu anotácie
2020-06-30 08:03:02 +00:00
- Do konca ZS vytvoriť report vo forme článku.
2020-11-13 08:41:17 +00:00
2021-02-12 08:30:09 +00:00
Stretnutie 12.2.:
- Prebrali sme článok. Treba vyhodiť a popresúvať niektoré časti, inak v poriadku.
Do budúceho stretnutia:
- Vybrať vhodný časopis na publikovanie
- Využiť pri trénovaní ďalšie anotované dáta.
2020-12-18 08:08:01 +00:00
2021-01-20 13:23:55 +00:00
Stretnutie 20.1.
Preberanie draftu práce.
- Do článku vyradiť príliš všeobecné časti - napr. o strojovom učení.
- V úvode zadefinujte problém, pojmy a bežné spôsoby riešenia problému. Čo je korpus? Ako sa vyrába? Na čo a ako sa používa?
- V jadre predstavte Vaše riešenie. Ako vyzerá korpus? Ako ste ho urobili?
- Na konci definujte metodiku vyhodnotenia, vyhodnotte riešenie a navrhnite zlepšenia. Akú presnosť má model vytvorený s pomocou korpusu?
2021-01-20 13:26:55 +00:00
Virtuálne stretnutie 18.12.2021:
2021-01-20 13:23:55 +00:00
2021-01-20 13:26:55 +00:00
Stav:
- Vytvorené anotácie do databázy, cca 1700 jednotiek.
- Začiatok článku.
2020-12-18 08:08:01 +00:00
2020-11-27 09:09:55 +00:00
Virtuálne stretnutie 27.11.2020:
- Zatiaľ zostávame pri ručnej extrakcii dát z anotačnej schémy.
2020-11-27 09:12:04 +00:00
- Vypracovaná [tabuľka s experimentami ](./dp2021/train_experiments )
- [Dáta a skripty ](./dp2021/annotation )
2020-10-30 08:34:28 +00:00
2020-11-27 09:15:13 +00:00
Úlohy:
- Pracovať na ďalších anotáciách, zlepšiť presnosť modelu.
- Urobiť ďalšie experimenty.
2020-11-27 09:20:07 +00:00
- Začať pracovať na článku. Niečo podobné ako [Znalosti ](https://hi.kkui.fei.tuke.sk/daz2019/ ), alebo [AEI ](http://www.aei.tuke.sk/ ). šablóna ieee alebo llncs.
2020-11-27 09:15:13 +00:00
2021-01-20 13:05:52 +00:00
Stretnutie 20.1.2021
- Draft článku
2020-11-13 08:18:55 +00:00
Virtuálne stretnutie 13.11.2020:
- výsledky skopírované do [adresára ](./dp2021 )
- prečítané 3 články - porovnanie manuálnej anotácie a poloautomatickej.
2020-11-13 08:22:41 +00:00
- začiatok práce na skripte pre počítanie anotovaných entít, treba ešte vylepšiť aby vznikla tabuľka.
2020-11-13 08:29:39 +00:00
- anotačná schéma vyzerá byť v poriadku, niektoré články treba odfiltrovať (zoznam obrázkov, prázdna kategória, nadpis).
2020-11-13 08:41:17 +00:00
Úlohy do ďalšieho stretnutia:
- vytvoriť spôsob pre získanie dát z produkčnej anotačnej schémy. (pre vedúceho)
- vytvorte ďalšie anotácie.
- Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?
- Vytvorte tabuľku kde uvediete presnosť modelu s rôznym množstvom anotovaných dát.
- A ký je najlepší spôsob vyhodnotnenia? Vytvoriť jednotnú testovaciu množinu. Druhý spôsob je použiť "10 fold cross validation" (Všetky dáta sa rozdelia na 10 častí, 9 sa využije pri trénovaní, 1 pri testovaní. Trénovanie sa opakuje 10 krát stále pre inú testovaciu množinu, výsledky sa spriemerujú).
2020-11-13 08:18:55 +00:00
2020-10-30 08:34:28 +00:00
Virtuálne stretnutie 30.10.2020:
Stav:
- Vylepšený návod
2020-11-13 08:18:55 +00:00
- Vyskúšaný export dát a trénovanie modelu z databázy. Problém pri trénovaní Spacy - iné výsledky ako cez Prodigy trénovanie
- Práca na textovej časti.
2020-06-18 13:33:46 +00:00
2020-10-30 08:34:28 +00:00
Úlohy do ďalšieho stretnutia:
- Vytvorte si repozitár s názvom dp2021 a tam pridajte skripty a poznámky.
- Pokračujte v písaní práce. Vykonajte prieskum literatúry "named entity corpora" aj poznámky.
- Vytvorte systém pre zistenie množstva a druhu anotovaných dát. Koľko článkov? Koľko entít jednotlivvých typov? Výsledná tabuľka pôjde do práce.
- Pripraviť sa na produkčné anotácie. Je schéma pripravená?
2020-10-16 07:29:17 +00:00
2020-10-16 07:20:23 +00:00
Virtuálne stretnutie 16.10.2020:
Stav:
- Spísané stručné poznámky k procesu anotácie
- Pokusne anotovaných niekoľko článkov
2020-10-16 07:29:17 +00:00
Úlohy na ďálšie stretnutie:
- Vylepšiť oficiálny návod na anotáciu NER https://zp.kemt.fei.tuke.sk/topics/named-entity/navod podľa poznámok a skúsenosti pri anotácii. Pridajte pravidlá pre učenie Accept a Reject článku. Ktorý paragraf je vhodný na anotáciu?
2020-10-16 07:20:23 +00:00
- Pripraviť skript na výber anotovaných dát z databázy a úpravu do podoby vhodnej pre trénovanie.
- Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?
2020-10-16 07:29:17 +00:00
- Pokračujte v písaní DP.
2020-10-09 07:19:31 +00:00
Virtuálne stretnutie 9.10.2020:
Stav:
- Vyskúšané trénovanie modelu podľa repozitára spacy-skmodel
- Začiatok práce na textovej časti (vo Worde do šablóny ZP).
Úlophy na ďalšie stretnutie:
- Prečítajte si návod na anotáciu a navrhnite zlepšenia návodu. Cieľ je napísať presnú metodiku anotácie.
- Pokusne antujte niekoľko článkov, spíšte problémové miesta.
Stretnutie 25.9.2020:
2020-09-25 09:07:24 +00:00
Urobené:
Oboznámenie sa procesom anotácie NER
Úlohy na ďalšie stretnutie:
- Natrénovať a vyhodnotiť model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
- začať pracovať na textovej časti podľa https://www.ieee.org/conferences/publishing/templates.html
Návrhny na zlepšenie:
Je potrebné rozbehať produkčnú anotáciu NER
## Diplomový projekt 1 2020
Výstupy (18.6.2020):
- [Anotačná schéma ](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation )
- [nasadenie anotačnej schémy ](http://skner.tukekemt.xyz )
- [Korpus 1300 viet z wikipédie ](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation/ner/textfile.csv )
2020-06-18 13:33:46 +00:00
2020-03-09 10:38:01 +00:00
Úlohy na semester:
- Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
- Vybrať a pripraviť vhodné dáta na anotáciu
2020-06-30 07:55:27 +00:00
Stretnutie 30.6.2020:
- Dodaný korpus 1300 viet
- Je dobré dáta rozdeliť na vety (odporúčanie, ľahšie sa sleduje anotované množstvo).
2020-03-09 10:38:01 +00:00
2020-05-15 08:17:03 +00:00
Virtuálne stretnutie 15.5.2020:
- Rozbehaná slovenská anotačná schéma pre pomenované entity
- Problém so slovenským NER modelom z wiki dát
Úlohy:
- vytvoriť do repozitára annotation adresár ner so všetkým potrebným pre spustenie slovenskej ner schémy (skripty, vzorové textové dáta).
- vyriešiť problém so spacy modelom.
2020-05-13 12:57:06 +00:00
Revízia 21.4.:
Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation
Revízia 9.4. a 17.4.
Nové úlohy:
- vytvorte skript pre anotáciu slovenských pomenovaných entít.
- Pozrite si https://prodi.gy/docs/named-entity-recognition (aj video)
- Spustite schému "Manual annotation with suggestions from a model" (použite aj [príklady ](https://git.kemt.fei.tuke.sk/dano/annotation )
- Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio
- Urobte skript, ktorý zmení wiki dáta do [spacy formátu ](https://raw.githubusercontent.com/explosion/prodigy-recipes/master/example-datasets/raw_shares-newsapi.jsonl )
- Uložte skript na GIT a pridajte odkaz do profilu
2020-03-09 10:38:01 +00:00
Stretnutie 9.3.2020:
Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation
Úlohy na ďalšie stretnutie:
- Oboznámte sa s so [systémom Docker ](https://student.kemt.fei.tuke.sk/predmety/zct )
- Rozbehajte si anotáciu z repozitára
- Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít
Návrh možných entít na anotáciu:
- OSOBA
- MIESTO alebo politická geografická entita
- ORGANIZACIA
- PRODUKT
- INE
2019-12-16 09:46:30 +00:00
## Tímový projekt 2019
2019-11-17 14:30:40 +00:00
2019-12-16 10:00:15 +00:00
#### Anotácia textových dát
2020-01-17 13:47:11 +00:00
2020-01-22 21:10:27 +00:00
*Úlohy tímového projektu*:
2020-03-09 10:38:01 +00:00
2019-12-16 10:00:15 +00:00
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
- citujte min. 10 najvýznamnejších bibliografických zdrojov
2019-12-16 10:00:27 +00:00
2020-01-22 21:10:45 +00:00
*Písomná práca*: [Rešerš ](./timovy_projekt )
2020-01-22 21:10:27 +00:00