zpwiki/pages/students/2016/jakub_maruniak/README.md

# Jakub Maruniak

*Rok začiatku štúdia*: 2016

## Diplomový projekt 1 2020

Úlohy na semester:

- Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
- Vybrať a pripraviť vhodné dáta na anotáciu
- Anotovať sadu dát
- Natrénovať a vyhodnotiť model

Revízia 21.4.:

Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation


Revízia 9.4. a 17.4.

Nové úlohy:

- vytvorte skript pre anotáciu slovenských pomenovaných entít. 
    - Pozrite si https://prodi.gy/docs/named-entity-recognition (aj video)
    - Spustite schému "Manual annotation with suggestions from a model" (použite aj [príklady](https://git.kemt.fei.tuke.sk/dano/annotation) 
- Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio
    - Urobte skript, ktorý zmení wiki dáta do [spacy formátu](https://raw.githubusercontent.com/explosion/prodigy-recipes/master/example-datasets/raw_shares-newsapi.jsonl)
    - Uložte skript na GIT a pridajte odkaz do profilu


Stretnutie 9.3.2020:

Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation

Úlohy na ďalšie stretnutie:

- Oboznámte sa s so [systémom Docker](https://student.kemt.fei.tuke.sk/predmety/zct)
- Rozbehajte si anotáciu z repozitára
- Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít

Návrh možných entít na anotáciu:

- OSOBA
- MIESTO alebo politická geografická entita
- ORGANIZACIA
- PRODUKT
- INE


## Tímový projekt 2019

#### Anotácia textových dát

*Úlohy tímového projektu*:

- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
- citujte min. 10 najvýznamnejších bibliografických zdrojov

*Písomná práca*: [Rešerš](./timovy_projekt)

*Návrh na zadanie DP*:

1. Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu.
2. Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
3. Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.

*Návrh na názov DP*:

Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu

*Spolupráca s projektom*:

- [Podpora slovenčiny v Spacy](/topics/spacy)
- [Anotácia textových dát](/topics/prodigy)
- [Rozpoznávanie pomenovaných entít](/topics/named-entity)
- [Spracovanie prir. jazyka](/topics/nlp)
- [Programovanie v jazyku Python](/topics/python)
Aktualizovat „pages/students/2016/jakub_maruniak/README.md“ 2020-01-31 07:58:13 +00:00			`# Jakub Maruniak`
zz 2020-03-09 10:38:01 +00:00
Aktualizovat „pages/students/2016/jakub_maruniak/README.md“ 2020-01-31 07:57:51 +00:00			`Rok začiatku štúdia: 2016`
first readme 2019-11-28 08:54:01 +00:00
zz 2020-03-09 10:38:01 +00:00			`## Diplomový projekt 1 2020`

			`Úlohy na semester:`

			`- Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít`
			`- Vybrať a pripraviť vhodné dáta na anotáciu`
			`- Anotovať sadu dát`
			`- Natrénovať a vyhodnotiť model`

Update 'pages/students/2016/jakub_maruniak/README.md' 2020-05-13 12:57:06 +00:00			`Revízia 21.4.:`

			`Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation`


			`Revízia 9.4. a 17.4.`

			`Nové úlohy:`

			`- vytvorte skript pre anotáciu slovenských pomenovaných entít.`
			`- Pozrite si https://prodi.gy/docs/named-entity-recognition (aj video)`
			`- Spustite schému "Manual annotation with suggestions from a model" (použite aj [príklady](https://git.kemt.fei.tuke.sk/dano/annotation)`
			`- Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio`
			`- Urobte skript, ktorý zmení wiki dáta do [spacy formátu](https://raw.githubusercontent.com/explosion/prodigy-recipes/master/example-datasets/raw_shares-newsapi.jsonl)`
			`- Uložte skript na GIT a pridajte odkaz do profilu`



zz 2020-03-09 10:38:01 +00:00			`Stretnutie 9.3.2020:`

			`Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation`

			`Úlohy na ďalšie stretnutie:`

			`- Oboznámte sa s so [systémom Docker](https://student.kemt.fei.tuke.sk/predmety/zct)`
			`- Rozbehajte si anotáciu z repozitára`
			`- Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít`

			`Návrh možných entít na anotáciu:`

			`- OSOBA`
			`- MIESTO alebo politická geografická entita`
			`- ORGANIZACIA`
			`- PRODUKT`
			`- INE`



Aktualizovat "pages/students/2016/jakub_maruniak/README.md 2019-12-16 09:46:30 +00:00			`## Tímový projekt 2019`
commit message 2019-11-17 14:30:40 +00:00
Aktualizovat "pages/students/2016/jakub_maruniak/README.md 2019-12-16 10:00:15 +00:00			`#### Anotácia textových dát`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-01-17 13:47:11 +00:00
Aktualizovat „pages/students/2016/jakub_maruniak/README.md“ 2020-01-22 21:10:27 +00:00			`Úlohy tímového projektu:`
zz 2020-03-09 10:38:01 +00:00
Aktualizovat "pages/students/2016/jakub_maruniak/README.md 2019-12-16 10:00:15 +00:00			`- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"`
			`- citujte min. 10 najvýznamnejších bibliografických zdrojov`
Aktualizovat "pages/students/2016/jakub_maruniak/README.md 2019-12-16 10:00:27 +00:00
Aktualizovat „pages/students/2016/jakub_maruniak/README.md“ 2020-01-22 21:10:45 +00:00			`Písomná práca: [Rešerš](./timovy_projekt)`
Aktualizovat „pages/students/2016/jakub_maruniak/README.md“ 2020-01-22 21:10:27 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-01-23 08:28:20 +00:00			`Návrh na zadanie DP:`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-02-07 09:58:21 +00:00
			`1. Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu.`
			`2. Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.`
			`3. Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.`
			`4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-01-23 08:34:09 +00:00
Aktualizovat „pages/students/2016/jakub_maruniak/README.md“ 2020-01-31 07:57:51 +00:00			`Návrh na názov DP:`
zz 2020-03-09 10:38:01 +00:00
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-02-07 09:58:21 +00:00			`Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu`
Update 'pages/students/2016/jakub_maruniak/README.md' 2020-01-23 08:34:09 +00:00
Aktualizovat „pages/students/2016/jakub_maruniak/README.md“ 2020-01-31 07:57:51 +00:00			`Spolupráca s projektom:`
zz 2020-03-09 10:38:01 +00:00
moved spacy 2020-01-25 16:29:42 +00:00			`- [Podpora slovenčiny v Spacy](/topics/spacy)`
move prodigy 2020-01-25 16:26:46 +00:00			`- [Anotácia textových dát](/topics/prodigy)`
moved named entity 2020-01-25 16:23:44 +00:00			`- [Rozpoznávanie pomenovaných entít](/topics/named-entity)`
move nlp 2020-01-25 16:25:37 +00:00			`- [Spracovanie prir. jazyka](/topics/nlp)`
move python 2020-01-25 16:27:48 +00:00			`- [Programovanie v jazyku Python](/topics/python)`