zpwiki/pages/students/2016/jakub_maruniak/README.md

158 lines
5.3 KiB
Markdown

---
title: Jakub Maruniak
published: true
taxonomy:
category: [dp2021,bp2019]
tag: [spacy,ner,annotation,nlp]
author: Daniel Hladek
---
# Jakub Maruniak
*Rok začiatku štúdia*: 2016
## Diplomový projekt 2
Zásobník úloh:
- Anotovať sadu dát s použitím produkčnej anotačnej schémy
- Použiť model na podporu anotácie
- Do konca ZS vytvoriť report vo forme článku.
- Vytvorte systém pre zistenie množstva a druhu anotovaných dát. Koľko článkov? Koľko entít jednotlivvých typov?
Virtuálne stretnutie 16.10.2020:
Stav:
- Spísané stručné poznámky k procesu anotácie
- Pokusne anotovaných niekoľko článkov
Úlohy n a ďálšie stretnutie:
- Vylepšiť oficiálny návod na anotáciu NER https://zp.kemt.fei.tuke.sk/topics/named-entity/navod.
- Pripraviť skript na výber anotovaných dát z databázy a úpravu do podoby vhodnej pre trénovanie.
- Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?
Virtuálne stretnutie 9.10.2020:
Stav:
- Vyskúšané trénovanie modelu podľa repozitára spacy-skmodel
- Začiatok práce na textovej časti (vo Worde do šablóny ZP).
Úlophy na ďalšie stretnutie:
- Prečítajte si návod na anotáciu a navrhnite zlepšenia návodu. Cieľ je napísať presnú metodiku anotácie.
- Pokusne antujte niekoľko článkov, spíšte problémové miesta.
Stretnutie 25.9.2020:
Urobené:
Oboznámenie sa procesom anotácie NER
Úlohy na ďalšie stretnutie:
- Natrénovať a vyhodnotiť model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
- začať pracovať na textovej časti podľa https://www.ieee.org/conferences/publishing/templates.html
Návrhny na zlepšenie:
Je potrebné rozbehať produkčnú anotáciu NER
## Diplomový projekt 1 2020
Výstupy (18.6.2020):
- [Anotačná schéma](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation)
- [nasadenie anotačnej schémy](http://skner.tukekemt.xyz)
- [Korpus 1300 viet z wikipédie](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation/ner/textfile.csv)
Úlohy na semester:
- Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
- Vybrať a pripraviť vhodné dáta na anotáciu
Stretnutie 30.6.2020:
- Dodaný korpus 1300 viet
- Je dobré dáta rozdeliť na vety (odporúčanie, ľahšie sa sleduje anotované množstvo).
Virtuálne stretnutie 15.5.2020:
- Rozbehaná slovenská anotačná schéma pre pomenované entity
- Problém so slovenským NER modelom z wiki dát
Úlohy:
- vytvoriť do repozitára annotation adresár ner so všetkým potrebným pre spustenie slovenskej ner schémy (skripty, vzorové textové dáta).
- vyriešiť problém so spacy modelom.
Revízia 21.4.:
Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation
Revízia 9.4. a 17.4.
Nové úlohy:
- vytvorte skript pre anotáciu slovenských pomenovaných entít.
- Pozrite si https://prodi.gy/docs/named-entity-recognition (aj video)
- Spustite schému "Manual annotation with suggestions from a model" (použite aj [príklady](https://git.kemt.fei.tuke.sk/dano/annotation)
- Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio
- Urobte skript, ktorý zmení wiki dáta do [spacy formátu](https://raw.githubusercontent.com/explosion/prodigy-recipes/master/example-datasets/raw_shares-newsapi.jsonl)
- Uložte skript na GIT a pridajte odkaz do profilu
Stretnutie 9.3.2020:
Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation
Úlohy na ďalšie stretnutie:
- Oboznámte sa s so [systémom Docker](https://student.kemt.fei.tuke.sk/predmety/zct)
- Rozbehajte si anotáciu z repozitára
- Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít
Návrh možných entít na anotáciu:
- OSOBA
- MIESTO alebo politická geografická entita
- ORGANIZACIA
- PRODUKT
- INE
## Tímový projekt 2019
#### Anotácia textových dát
*Úlohy tímového projektu*:
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
- citujte min. 10 najvýznamnejších bibliografických zdrojov
*Písomná práca*: [Rešerš](./timovy_projekt)
*Návrh na zadanie DP*:
1. Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu.
2. Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
3. Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.
*Návrh na názov DP*:
Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu
*Spolupráca s projektom*:
- [Podpora slovenčiny v Spacy](/topics/spacy)
- [Anotácia textových dát](/topics/prodigy)
- [Rozpoznávanie pomenovaných entít](/topics/named-entity)
- [Spracovanie prir. jazyka](/topics/nlp)
- [Programovanie v jazyku Python](/topics/python)