dmytro_ushatenko/pages/students/2016/maros_harahus/README.md

6.5 KiB

title published taxonomy
Maroš Harahus true
category tag author
dp2021
bp2019
spacy
nlp
Daniel Hladek

Maroš Harahus

Diplomový projekt 2 2020

Zásobník úloh:

  • skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky).
  • Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy.

Virtuálne stretnutie 30.10.2020

Stav:

  • Súbory sú na GIte
  • Vykonané experimenty, Výsledky experimentov sú v tabuľke
  • Návod na spustenie
  • Vyriešenie technických problémov. Je k dispozicíí Conda prostredie.

ÚÚlohy na ďďalšie stretnutie:

Virtuálne stretnutie 8.10.2020

Stav:

  • Podarilo sa vykonať pretrénovanie aj trénovanie, prvé výsledky experimentov.
  • pretrénovanie funguje na GPU, použila sa verzia spacy 2.2, trénovanie na IDOC
  • trénovanie ide lepšie na CPU
  • vyskytol sa problém že nevie alokovať viac ako 2GB RAM
  • 200 iterácií pretrénovania, 4000 riadkov viet

Úlohy do ďalšieho stretnutia:

  • Dať zdrojáky na GIT
  • Urobiť porovnanie voči presnosti bez pretrain
  • Výsledky dajte do tabuľky - aké parametre ste použili pri trénovaní a pretrénovaí?
  • experimenty si poznačte do skriptu aby sa dali zopakovať
  • Do článku (do súboru README na GIte) presne opíšte nastavenie experimentu - parametre, dáta a spôsob overenia, aspoň rozpracovať.
  • Začnite spisovať teoretickú časť článku, aspoň rozpracovať.

Stretnutie 25.9.2020

Stav:

  • chyba pri použití príkazu pretrain, ktorá sa objavila s novou verziou Spacy

Úlohy do ďalšieho stretnutia:

  • pokračovať so starou verziou Spacy (2.2)

Návrhy na zlepšenie:

  • Použiť viac textových dát.

Zvážiť publikovanie na: http://conf.uni-obuda.hu/sami2021/index.html

  • najprv napísať po slovensky, potom sa to preloží
  • opísať experimenty

Diplomový projekt 2020

Zdroje:

Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)

Stretnutie 23.6.2020:

Stretnutie 12.6.2020:

  • Pretrénovanie Fasttext a trénovanie POS Spacy modelu - ešte treba vylepšiť presnosť

K zápočtu:

  • Finálny okomentovaný skript pre trénovanie POS modelu podľa Slovak Treebank s pretrénovaním Fasttext.
  • Ak sa dá tak pri trénovaní využite GPU
  • Zistite výslednú presnosť, mala by byť nad 80 percent.
  • Porovnajte s presnosťou bez pretrénovania.

Virtuálne stretnutie 15.5.2020:

  • Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach.
  • Vytvorený repozitár

Nové úlohy:

Revízia 9.4.2020:

Report o doterajšej práci:

  • naštudovanie Fasttext
  • implementácia do Spacy
  • úprava modelu v spacy na rozpoznanie jazyka
  • snaha o spacy-udpipe pre non-English text

Nové úlohy:

  • pridajte zdrojový text a odkaz na "implementáciu".
  • natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
  • skúste pridať "word-embeddingy" z fasttext do trénovania.
  • vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť?
  • porozmýšľajte ako sa dá presnosť zlepšiť.

Stretnutie 5.3.2020:

Úlohy na ďalšie stretnutie:

  • zobrať alebo vytvoriť fasttext model
  • pozrieť sa na spacy pretrain - tam sa bude dať využiť fasttext model
  • vložiť ho do spacy modelu pomocou spacy pretrain
  • pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
  • porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset

Poznámka:

Stretnutie: 20.2.2020:

Úlohy na ďalšie stretnutie:

Návrh na zadanie DP

Názov diplomovej práce: Štatistická morfologická anotácia slovenského jazyka

  1. Vypracujte prehľad spôsobov morfologickej anotácie slovenského jazyka.
  2. Pripravte trénovacie dáta vo vhodnom formáte a natrénujte štatistický model morfologického značkovania
  3. Vyhodnoťte presnosť značkovania a navrhnite možné zlepšenia.

Tímový projekt 2019

Projektové stránky:

Spacy tutoriál

  • Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).