zpwiki/pages/students/2016/jakub_maruniak
2020-10-02 15:56:17 +02:00
..
dp2021 Nahrát soubory do „pages/students/2016/jakub_maruniak/dp2021/annotation/ner“ 2020-06-26 20:41:21 +00:00
timovy_projekt added pages to tp2019 2020-10-02 15:56:17 +02:00
README.md zz 2020-10-01 15:46:14 +02:00

title published taxonomy
Jakub Maruniak true
category tag author
dp2021
bp2019
spacy
ner
nlp
Daniel Hladek

Jakub Maruniak

Rok začiatku štúdia: 2016

Diplomový projekt 2

Zásobník úloh:

  • Anotovať sadu dát s použitím produkčnej anotačnej schémy
  • Použiť model na podporu anotácie
  • Do konca ZS vytvoriť report vo forme článku.

Urobené:

Oboznámenie sa procesom anotácie NER

Úlohy na ďalšie stretnutie:

Návrhny na zlepšenie:

Je potrebné rozbehať produkčnú anotáciu NER

Diplomový projekt 1 2020

Výstupy (18.6.2020):

Úlohy na semester:

  • Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
  • Vybrať a pripraviť vhodné dáta na anotáciu

Stretnutie 30.6.2020:

  • Dodaný korpus 1300 viet
  • Je dobré dáta rozdeliť na vety (odporúčanie, ľahšie sa sleduje anotované množstvo).

Virtuálne stretnutie 15.5.2020:

  • Rozbehaná slovenská anotačná schéma pre pomenované entity
  • Problém so slovenským NER modelom z wiki dát

Úlohy:

  • vytvoriť do repozitára annotation adresár ner so všetkým potrebným pre spustenie slovenskej ner schémy (skripty, vzorové textové dáta).
  • vyriešiť problém so spacy modelom.

Revízia 21.4.:

Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation

Revízia 9.4. a 17.4.

Nové úlohy:

Stretnutie 9.3.2020:

Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation

Úlohy na ďalšie stretnutie:

  • Oboznámte sa s so systémom Docker
  • Rozbehajte si anotáciu z repozitára
  • Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít

Návrh možných entít na anotáciu:

  • OSOBA
  • MIESTO alebo politická geografická entita
  • ORGANIZACIA
  • PRODUKT
  • INE

Tímový projekt 2019

Anotácia textových dát

Úlohy tímového projektu:

  • Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
  • citujte min. 10 najvýznamnejších bibliografických zdrojov

Písomná práca: Rešerš

Návrh na zadanie DP:

  1. Vypracujte prehľad metód prípravy textových korpusov pomocou crowdsourcingu.
  2. Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
  3. Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
  4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.

Návrh na názov DP:

Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu

Spolupráca s projektom: