forked from KEMT/zpwiki
91 lines
3.1 KiB
Markdown
91 lines
3.1 KiB
Markdown
# Jakub Maruniak
|
|
|
|
*Rok začiatku štúdia*: 2016
|
|
|
|
## Diplomový projekt 1 2020
|
|
|
|
Úlohy na semester:
|
|
|
|
- Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
|
|
- Vybrať a pripraviť vhodné dáta na anotáciu
|
|
- Anotovať sadu dát
|
|
- Natrénovať a vyhodnotiť model
|
|
|
|
Virtuálne stretnutie 15.5.2020:
|
|
|
|
- Rozbehaná slovenská anotačná schéma pre pomenované entity
|
|
- Problém so slovenským NER modelom z wiki dát
|
|
|
|
Úlohy:
|
|
|
|
- vytvoriť do repozitára annotation adresár ner so všetkým potrebným pre spustenie slovenskej ner schémy (skripty, vzorové textové dáta).
|
|
- vyriešiť problém so spacy modelom.
|
|
|
|
Revízia 21.4.:
|
|
|
|
Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation
|
|
|
|
|
|
Revízia 9.4. a 17.4.
|
|
|
|
Nové úlohy:
|
|
|
|
- vytvorte skript pre anotáciu slovenských pomenovaných entít.
|
|
- Pozrite si https://prodi.gy/docs/named-entity-recognition (aj video)
|
|
- Spustite schému "Manual annotation with suggestions from a model" (použite aj [príklady](https://git.kemt.fei.tuke.sk/dano/annotation)
|
|
- Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio
|
|
- Urobte skript, ktorý zmení wiki dáta do [spacy formátu](https://raw.githubusercontent.com/explosion/prodigy-recipes/master/example-datasets/raw_shares-newsapi.jsonl)
|
|
- Uložte skript na GIT a pridajte odkaz do profilu
|
|
|
|
|
|
|
|
Stretnutie 9.3.2020:
|
|
|
|
Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation
|
|
|
|
Úlohy na ďalšie stretnutie:
|
|
|
|
- Oboznámte sa s so [systémom Docker](https://student.kemt.fei.tuke.sk/predmety/zct)
|
|
- Rozbehajte si anotáciu z repozitára
|
|
- Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít
|
|
|
|
Návrh možných entít na anotáciu:
|
|
|
|
- OSOBA
|
|
- MIESTO alebo politická geografická entita
|
|
- ORGANIZACIA
|
|
- PRODUKT
|
|
- INE
|
|
|
|
|
|
|
|
## Tímový projekt 2019
|
|
|
|
#### Anotácia textových dát
|
|
|
|
*Úlohy tímového projektu*:
|
|
|
|
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
|
|
- citujte min. 10 najvýznamnejších bibliografických zdrojov
|
|
|
|
*Písomná práca*: [Rešerš](./timovy_projekt)
|
|
|
|
*Návrh na zadanie DP*:
|
|
|
|
1. Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu.
|
|
2. Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
|
|
3. Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
|
|
4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.
|
|
|
|
*Návrh na názov DP*:
|
|
|
|
Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu
|
|
|
|
*Spolupráca s projektom*:
|
|
|
|
- [Podpora slovenčiny v Spacy](/topics/spacy)
|
|
- [Anotácia textových dát](/topics/prodigy)
|
|
- [Rozpoznávanie pomenovaných entít](/topics/named-entity)
|
|
- [Spracovanie prir. jazyka](/topics/nlp)
|
|
- [Programovanie v jazyku Python](/topics/python)
|