zpwiki/pages/students/2016/jakub_maruniak/README.md

---
title: Jakub Maruniak
published: true
taxonomy:
    category: [dp2021,bp2019]
    tag: [spacy,ner,annotation,nlp]
    author: Daniel Hladek
---
# Jakub Maruniak

*Rok začiatku štúdia*: 2016

*Návrh na názov DP*:

Anotácia a rozpoznávanie pomenovaných entít v slovenskom jazyku.


1. Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí. Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy. 
2. Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
3. Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.

*Spolupráca s projektom*:

- [Podpora slovenčiny v Spacy](/topics/spacy)
- [Anotácia textových dát](/topics/prodigy)
- [Rozpoznávanie pomenovaných entít](/topics/named-entity)
- [Spracovanie prir. jazyka](/topics/nlp)
- [Programovanie v jazyku Python](/topics/python)


## Diplomová práca 2021


Stretnutie 12.3.

Stav:

- Anotovanie dát, vykonané experimenty s trénovaním. 
- Dosiahli sme presnosť cca 72 percent.
- Výsledky sú zhrnuté v tabuľke.

Úlohy:

- Píšte prácu.
- Uložte trénovacie skripty na GIT.


## Diplomový projekt 2

Ciele:

- Anotovať sadu dát s použitím produkčnej anotačnej schémy, natrénovať a vyhodnotiť model.

Zásobník úloh:

- Použiť model na podporu anotácie
- Do konca ZS vytvoriť report vo forme článku.

Stretnutie 12.2.:

- Prebrali sme článok. Treba vyhodiť a popresúvať niektoré časti, inak v poriadku.

Do budúceho stretnutia:

- Vybrať vhodný časopis na publikovanie
- Využiť pri trénovaní ďalšie anotované dáta.


Stretnutie 20.1.

Preberanie draftu práce.

- Do článku vyradiť príliš všeobecné časti - napr. o strojovom učení.
- V úvode zadefinujte problém, pojmy a bežné spôsoby riešenia problému. Čo je korpus? Ako sa vyrába? Na čo a ako sa používa?
- V jadre predstavte Vaše riešenie. Ako vyzerá korpus? Ako ste ho urobili?
- Na konci definujte metodiku vyhodnotenia, vyhodnotte riešenie a navrhnite zlepšenia. Akú presnosť má model vytvorený s pomocou korpusu?

Virtuálne stretnutie 18.12.2021:

Stav:

- Vytvorené anotácie do databázy, cca 1700 jednotiek.
- Začiatok článku.

Virtuálne stretnutie 27.11.2020:

- Zatiaľ zostávame pri ručnej extrakcii dát z anotačnej schémy.
- Vypracovaná [tabuľka s experimentami](./dp2021/train_experiments)
- [Dáta a skripty](./dp2021/annotation)

Úlohy:

- Pracovať na ďalších anotáciách, zlepšiť presnosť modelu.
- Urobiť ďalšie experimenty.
- Začať pracovať na článku. Niečo podobné ako [Znalosti](https://hi.kkui.fei.tuke.sk/daz2019/), alebo [AEI](http://www.aei.tuke.sk/). šablóna ieee alebo llncs.

Stretnutie 20.1.2021

- Draft článku

Virtuálne stretnutie 13.11.2020:

- výsledky skopírované do [adresára](./dp2021)
- prečítané 3 články - porovnanie manuálnej anotácie a poloautomatickej. 
- začiatok práce na skripte pre počítanie anotovaných entít, treba ešte vylepšiť aby vznikla tabuľka.
- anotačná schéma vyzerá byť v poriadku, niektoré články treba odfiltrovať (zoznam obrázkov, prázdna kategória, nadpis).

Úlohy do ďalšieho stretnutia:

- vytvoriť spôsob pre získanie dát z produkčnej anotačnej schémy.  (pre vedúceho)
- vytvorte ďalšie anotácie.
- Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?
- Vytvorte tabuľku kde uvediete presnosť modelu s rôznym množstvom anotovaných dát.
- Aký je najlepší spôsob vyhodnotnenia? Vytvoriť jednotnú testovaciu množinu. Druhý spôsob je použiť "10 fold cross validation" (Všetky dáta sa rozdelia na 10 častí, 9 sa využije pri trénovaní, 1 pri testovaní. Trénovanie sa opakuje 10 krát stále pre inú testovaciu množinu, výsledky sa spriemerujú).


Virtuálne stretnutie 30.10.2020:

Stav:

- Vylepšený návod
- Vyskúšaný export dát a trénovanie modelu z databázy. Problém pri trénovaní Spacy - iné výsledky ako cez Prodigy trénovanie
- Práca na textovej časti.

Úlohy do ďalšieho stretnutia:
- Vytvorte si repozitár s názvom dp2021 a tam pridajte skripty a poznámky.
- Pokračujte v písaní práce. Vykonajte prieskum literatúry "named entity corpora" aj poznámky.
- Vytvorte systém pre zistenie množstva a druhu anotovaných dát. Koľko článkov? Koľko entít jednotlivvých typov? Výsledná tabuľka pôjde do práce.
- Pripraviť sa na produkčné anotácie. Je schéma pripravená?

Virtuálne stretnutie 16.10.2020:

Stav:
- Spísané stručné poznámky k procesu anotácie
- Pokusne anotovaných niekoľko článkov

Úlohy na ďálšie stretnutie:
- Vylepšiť oficiálny návod na anotáciu NER  https://zp.kemt.fei.tuke.sk/topics/named-entity/navod podľa poznámok a skúsenosti pri anotácii. Pridajte pravidlá pre učenie Accept a Reject článku. Ktorý paragraf je vhodný na anotáciu?
- Pripraviť skript na výber anotovaných dát z databázy a úpravu do podoby vhodnej pre trénovanie.
- Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?
- Pokračujte v písaní DP.

Virtuálne stretnutie 9.10.2020:

Stav:

- Vyskúšané trénovanie modelu podľa repozitára spacy-skmodel
- Začiatok práce na textovej časti (vo Worde do šablóny ZP).

Úlophy na ďalšie stretnutie:

- Prečítajte si návod na anotáciu a navrhnite zlepšenia návodu. Cieľ je napísať presnú metodiku anotácie.
- Pokusne antujte niekoľko článkov, spíšte problémové miesta.

Stretnutie 25.9.2020:

Urobené:

Oboznámenie sa procesom anotácie NER

Úlohy na ďalšie stretnutie:
- Natrénovať a vyhodnotiť model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
- začať pracovať na textovej časti podľa  https://www.ieee.org/conferences/publishing/templates.html


Návrhny na zlepšenie:

Je potrebné rozbehať produkčnú anotáciu NER


## Diplomový projekt 1 2020

Výstupy (18.6.2020): 

- [Anotačná schéma](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation)
- [nasadenie anotačnej schémy](http://skner.tukekemt.xyz)
- [Korpus 1300 viet z wikipédie](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation/ner/textfile.csv)


Úlohy na semester:

- Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
- Vybrať a pripraviť vhodné dáta na anotáciu

Stretnutie 30.6.2020: 

- Dodaný korpus 1300 viet
- Je dobré dáta rozdeliť na vety (odporúčanie, ľahšie sa sleduje anotované množstvo).

Virtuálne stretnutie 15.5.2020:

- Rozbehaná slovenská anotačná schéma pre pomenované entity
- Problém so slovenským NER modelom z wiki dát

Úlohy:

- vytvoriť do repozitára annotation adresár ner so všetkým potrebným pre spustenie slovenskej ner schémy (skripty, vzorové textové dáta).
- vyriešiť problém so spacy modelom.

Revízia 21.4.:

Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation


Revízia 9.4. a 17.4.

Nové úlohy:

- vytvorte skript pre anotáciu slovenských pomenovaných entít. 
    - Pozrite si https://prodi.gy/docs/named-entity-recognition (aj video)
    - Spustite schému "Manual annotation with suggestions from a model" (použite aj [príklady](https://git.kemt.fei.tuke.sk/dano/annotation) 
- Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio
    - Urobte skript, ktorý zmení wiki dáta do [spacy formátu](https://raw.githubusercontent.com/explosion/prodigy-recipes/master/example-datasets/raw_shares-newsapi.jsonl)
    - Uložte skript na GIT a pridajte odkaz do profilu


Stretnutie 9.3.2020:

Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation

Úlohy na ďalšie stretnutie:

- Oboznámte sa s so [systémom Docker](https://student.kemt.fei.tuke.sk/predmety/zct)
- Rozbehajte si anotáciu z repozitára
- Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít

Návrh možných entít na anotáciu:

- OSOBA
- MIESTO alebo politická geografická entita
- ORGANIZACIA
- PRODUKT
- INE


## Tímový projekt 2019

#### Anotácia textových dát

*Úlohy tímového projektu*:

- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
- citujte min. 10 najvýznamnejších bibliografických zdrojov

*Písomná práca*: [Rešerš](./timovy_projekt)
zz 2020-10-01 13:33:21 +00:00			`---`
			`title: Jakub Maruniak`
			`published: true`
			`taxonomy:`
zz 2020-10-01 13:46:14 +00:00			`category: [dp2021,bp2019]`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-10-16 07:20:23 +00:00			`tag: [spacy,ner,annotation,nlp]`
zz 2020-10-01 13:33:21 +00:00			`author: Daniel Hladek`
			`---`
Aktualizovat „pages/students/2016/jakub_maruniak/README.md“ 2020-01-31 07:58:13 +00:00			`# Jakub Maruniak`
zz 2020-03-09 10:38:01 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-09-25 09:07:24 +00:00			`Rok začiatku štúdia: 2016`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-06-18 13:33:46 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2021-02-09 14:30:02 +00:00			`Návrh na názov DP:`

			`Anotácia a rozpoznávanie pomenovaných entít v slovenskom jazyku.`

Update 'pages/students/2016/jakub_maruniak/README.md' 2021-03-12 12:57:43 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2021-02-09 14:30:02 +00:00
			`1. Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí. Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy.`
			`2. Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.`
			`3. Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.`
			`4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.`

			`Spolupráca s projektom:`

			`- [Podpora slovenčiny v Spacy](/topics/spacy)`
			`- [Anotácia textových dát](/topics/prodigy)`
			`- [Rozpoznávanie pomenovaných entít](/topics/named-entity)`
			`- [Spracovanie prir. jazyka](/topics/nlp)`
			`- [Programovanie v jazyku Python](/topics/python)`


Update 'pages/students/2016/jakub_maruniak/README.md' 2021-03-12 12:57:43 +00:00			`## Diplomová práca 2021`


			`Stretnutie 12.3.`

			`Stav:`

			`- Anotovanie dát, vykonané experimenty s trénovaním.`
			`- Dosiahli sme presnosť cca 72 percent.`
			`- Výsledky sú zhrnuté v tabuľke.`

			`Úlohy:`

			`- Píšte prácu.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2021-03-12 13:01:17 +00:00			`- Uložte trénovacie skripty na GIT.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2021-02-09 14:30:02 +00:00


Update 'pages/students/2016/jakub_maruniak/README.md' 2020-09-25 09:07:24 +00:00			`## Diplomový projekt 2`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-06-30 07:55:27 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-10-16 07:29:17 +00:00			`Ciele:`

			`- Anotovať sadu dát s použitím produkčnej anotačnej schémy, natrénovať a vyhodnotiť model.`

Update 'pages/students/2016/jakub_maruniak/README.md' 2020-06-30 07:55:27 +00:00			`Zásobník úloh:`

			`- Použiť model na podporu anotácie`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-06-30 08:03:02 +00:00			`- Do konca ZS vytvoriť report vo forme článku.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-13 08:41:17 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2021-02-12 08:30:09 +00:00			`Stretnutie 12.2.:`

			`- Prebrali sme článok. Treba vyhodiť a popresúvať niektoré časti, inak v poriadku.`

			`Do budúceho stretnutia:`

			`- Vybrať vhodný časopis na publikovanie`
			`- Využiť pri trénovaní ďalšie anotované dáta.`

Update 'pages/students/2016/jakub_maruniak/README.md' 2020-12-18 08:08:01 +00:00


Update 'pages/students/2016/jakub_maruniak/README.md' 2021-01-20 13:23:55 +00:00			`Stretnutie 20.1.`

			`Preberanie draftu práce.`

			`- Do článku vyradiť príliš všeobecné časti - napr. o strojovom učení.`
			`- V úvode zadefinujte problém, pojmy a bežné spôsoby riešenia problému. Čo je korpus? Ako sa vyrába? Na čo a ako sa používa?`
			`- V jadre predstavte Vaše riešenie. Ako vyzerá korpus? Ako ste ho urobili?`
			`- Na konci definujte metodiku vyhodnotenia, vyhodnotte riešenie a navrhnite zlepšenia. Akú presnosť má model vytvorený s pomocou korpusu?`

Update 'pages/students/2016/jakub_maruniak/README.md' 2021-01-20 13:26:55 +00:00			`Virtuálne stretnutie 18.12.2021:`
Update 'pages/students/2016/jakub_maruniak/README.md' 2021-01-20 13:23:55 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2021-01-20 13:26:55 +00:00			`Stav:`

			`- Vytvorené anotácie do databázy, cca 1700 jednotiek.`
			`- Začiatok článku.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-12-18 08:08:01 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-27 09:09:55 +00:00			`Virtuálne stretnutie 27.11.2020:`

			`- Zatiaľ zostávame pri ručnej extrakcii dát z anotačnej schémy.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-27 09:12:04 +00:00			`- Vypracovaná [tabuľka s experimentami](./dp2021/train_experiments)`
			`- [Dáta a skripty](./dp2021/annotation)`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-10-30 08:34:28 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-27 09:15:13 +00:00			`Úlohy:`

			`- Pracovať na ďalších anotáciách, zlepšiť presnosť modelu.`
			`- Urobiť ďalšie experimenty.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-27 09:20:07 +00:00			`- Začať pracovať na článku. Niečo podobné ako [Znalosti](https://hi.kkui.fei.tuke.sk/daz2019/), alebo [AEI](http://www.aei.tuke.sk/). šablóna ieee alebo llncs.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-27 09:15:13 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2021-01-20 13:05:52 +00:00			`Stretnutie 20.1.2021`

			`- Draft článku`

Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-13 08:18:55 +00:00			`Virtuálne stretnutie 13.11.2020:`

			`- výsledky skopírované do [adresára](./dp2021)`
			`- prečítané 3 články - porovnanie manuálnej anotácie a poloautomatickej.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-13 08:22:41 +00:00			`- začiatok práce na skripte pre počítanie anotovaných entít, treba ešte vylepšiť aby vznikla tabuľka.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-13 08:29:39 +00:00			`- anotačná schéma vyzerá byť v poriadku, niektoré články treba odfiltrovať (zoznam obrázkov, prázdna kategória, nadpis).`

Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-13 08:41:17 +00:00			`Úlohy do ďalšieho stretnutia:`

			`- vytvoriť spôsob pre získanie dát z produkčnej anotačnej schémy. (pre vedúceho)`
			`- vytvorte ďalšie anotácie.`
			`- Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?`
			`- Vytvorte tabuľku kde uvediete presnosť modelu s rôznym množstvom anotovaných dát.`
			`- Aký je najlepší spôsob vyhodnotnenia? Vytvoriť jednotnú testovaciu množinu. Druhý spôsob je použiť "10 fold cross validation" (Všetky dáta sa rozdelia na 10 častí, 9 sa využije pri trénovaní, 1 pri testovaní. Trénovanie sa opakuje 10 krát stále pre inú testovaciu množinu, výsledky sa spriemerujú).`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-13 08:18:55 +00:00

Update 'pages/students/2016/jakub_maruniak/README.md' 2020-10-30 08:34:28 +00:00			`Virtuálne stretnutie 30.10.2020:`

			`Stav:`

			`- Vylepšený návod`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-11-13 08:18:55 +00:00			`- Vyskúšaný export dát a trénovanie modelu z databázy. Problém pri trénovaní Spacy - iné výsledky ako cez Prodigy trénovanie`
			`- Práca na textovej časti.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-06-18 13:33:46 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-10-30 08:34:28 +00:00			`Úlohy do ďalšieho stretnutia:`
			`- Vytvorte si repozitár s názvom dp2021 a tam pridajte skripty a poznámky.`
			`- Pokračujte v písaní práce. Vykonajte prieskum literatúry "named entity corpora" aj poznámky.`
			`- Vytvorte systém pre zistenie množstva a druhu anotovaných dát. Koľko článkov? Koľko entít jednotlivvých typov? Výsledná tabuľka pôjde do práce.`
			`- Pripraviť sa na produkčné anotácie. Je schéma pripravená?`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-10-16 07:29:17 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-10-16 07:20:23 +00:00			`Virtuálne stretnutie 16.10.2020:`

			`Stav:`
			`- Spísané stručné poznámky k procesu anotácie`
			`- Pokusne anotovaných niekoľko článkov`

Update 'pages/students/2016/jakub_maruniak/README.md' 2020-10-16 07:29:17 +00:00			`Úlohy na ďálšie stretnutie:`
			`- Vylepšiť oficiálny návod na anotáciu NER https://zp.kemt.fei.tuke.sk/topics/named-entity/navod podľa poznámok a skúsenosti pri anotácii. Pridajte pravidlá pre učenie Accept a Reject článku. Ktorý paragraf je vhodný na anotáciu?`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-10-16 07:20:23 +00:00			`- Pripraviť skript na výber anotovaných dát z databázy a úpravu do podoby vhodnej pre trénovanie.`
			`- Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-10-16 07:29:17 +00:00			`- Pokračujte v písaní DP.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-10-09 07:19:31 +00:00
			`Virtuálne stretnutie 9.10.2020:`

			`Stav:`

			`- Vyskúšané trénovanie modelu podľa repozitára spacy-skmodel`
			`- Začiatok práce na textovej časti (vo Worde do šablóny ZP).`

			`Úlophy na ďalšie stretnutie:`

			`- Prečítajte si návod na anotáciu a navrhnite zlepšenia návodu. Cieľ je napísať presnú metodiku anotácie.`
			`- Pokusne antujte niekoľko článkov, spíšte problémové miesta.`

			`Stretnutie 25.9.2020:`

Update 'pages/students/2016/jakub_maruniak/README.md' 2020-09-25 09:07:24 +00:00			`Urobené:`

			`Oboznámenie sa procesom anotácie NER`

			`Úlohy na ďalšie stretnutie:`
			`- Natrénovať a vyhodnotiť model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel`
			`- začať pracovať na textovej časti podľa https://www.ieee.org/conferences/publishing/templates.html`


			`Návrhny na zlepšenie:`

			`Je potrebné rozbehať produkčnú anotáciu NER`


			`## Diplomový projekt 1 2020`

			`Výstupy (18.6.2020):`

			`- [Anotačná schéma](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation)`
			`- [nasadenie anotačnej schémy](http://skner.tukekemt.xyz)`
			`- [Korpus 1300 viet z wikipédie](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation/ner/textfile.csv)`

Update 'pages/students/2016/jakub_maruniak/README.md' 2020-06-18 13:33:46 +00:00
zz 2020-03-09 10:38:01 +00:00			`Úlohy na semester:`

			`- Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít`
			`- Vybrať a pripraviť vhodné dáta na anotáciu`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-06-30 07:55:27 +00:00
			`Stretnutie 30.6.2020:`

			`- Dodaný korpus 1300 viet`
			`- Je dobré dáta rozdeliť na vety (odporúčanie, ľahšie sa sleduje anotované množstvo).`
zz 2020-03-09 10:38:01 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-05-15 08:17:03 +00:00			`Virtuálne stretnutie 15.5.2020:`

			`- Rozbehaná slovenská anotačná schéma pre pomenované entity`
			`- Problém so slovenským NER modelom z wiki dát`

			`Úlohy:`

			`- vytvoriť do repozitára annotation adresár ner so všetkým potrebným pre spustenie slovenskej ner schémy (skripty, vzorové textové dáta).`
			`- vyriešiť problém so spacy modelom.`

Update 'pages/students/2016/jakub_maruniak/README.md' 2020-05-13 12:57:06 +00:00			`Revízia 21.4.:`

			`Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation`


			`Revízia 9.4. a 17.4.`

			`Nové úlohy:`

			`- vytvorte skript pre anotáciu slovenských pomenovaných entít.`
			`- Pozrite si https://prodi.gy/docs/named-entity-recognition (aj video)`
			`- Spustite schému "Manual annotation with suggestions from a model" (použite aj [príklady](https://git.kemt.fei.tuke.sk/dano/annotation)`
			`- Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio`
			`- Urobte skript, ktorý zmení wiki dáta do [spacy formátu](https://raw.githubusercontent.com/explosion/prodigy-recipes/master/example-datasets/raw_shares-newsapi.jsonl)`
			`- Uložte skript na GIT a pridajte odkaz do profilu`



zz 2020-03-09 10:38:01 +00:00			`Stretnutie 9.3.2020:`

			`Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation`

			`Úlohy na ďalšie stretnutie:`

			`- Oboznámte sa s so [systémom Docker](https://student.kemt.fei.tuke.sk/predmety/zct)`
			`- Rozbehajte si anotáciu z repozitára`
			`- Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít`

			`Návrh možných entít na anotáciu:`

			`- OSOBA`
			`- MIESTO alebo politická geografická entita`
			`- ORGANIZACIA`
			`- PRODUKT`
			`- INE`



Aktualizovat "pages/students/2016/jakub_maruniak/README.md 2019-12-16 09:46:30 +00:00			`## Tímový projekt 2019`
commit message 2019-11-17 14:30:40 +00:00
Aktualizovat "pages/students/2016/jakub_maruniak/README.md 2019-12-16 10:00:15 +00:00			`#### Anotácia textových dát`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-01-17 13:47:11 +00:00
Aktualizovat „pages/students/2016/jakub_maruniak/README.md“ 2020-01-22 21:10:27 +00:00			`Úlohy tímového projektu:`
zz 2020-03-09 10:38:01 +00:00
Aktualizovat "pages/students/2016/jakub_maruniak/README.md 2019-12-16 10:00:15 +00:00			`- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"`
			`- citujte min. 10 najvýznamnejších bibliografických zdrojov`
Aktualizovat "pages/students/2016/jakub_maruniak/README.md 2019-12-16 10:00:27 +00:00
Aktualizovat „pages/students/2016/jakub_maruniak/README.md“ 2020-01-22 21:10:45 +00:00			`Písomná práca: [Rešerš](./timovy_projekt)`
Aktualizovat „pages/students/2016/jakub_maruniak/README.md“ 2020-01-22 21:10:27 +00:00