dmytro_ushatenko/pages/students/2016/maros_harahus/README.md

13 KiB

title published taxonomy
Maroš Harahus true
category tag author
dp2021
bp2019
spacy
nlp
Daniel Hladek

Maroš Harahus

Dizertačná práca

Generovanie vektorových reprezentácií štruktúrovaných dát.

Minimovka 2023

  • Grafové neurónové siete

Report 25.02.2022

  • Prehlaď o jazykových modeloch (BERT, RoBERTa, BART, XLNet, GPT-3) (spracovane poznámky na gite)
  • Prehlaď o time-series GAN
  • Úprava skriptu z peci jsnol -- > csv
  • Skúšanie programu GAN na generovanie obrázkov (na pochopenie ako to funguje)
  • Hľadanie vhodnej implementácie na generovanie dát
  • Rozpracovaná (veľmi malo) analýza datasetu peci

Záznam z porady 24.2:

  • tavby za sebou súvisia kvôli kalibrácii .. x tavieb
  • overiť anomálie v dátach .. ci je problém signifikantný...atď.
  • pýtať sa na druh šrotu, lebo niektoré sú podobne
  • prečo mame rozdelene modely_ nebude stačiť jeden model ?
  • možná kalibrácia , zisti prečo sú horšie dáva ? ci to je kvôli senzorom alebo kedy sa kalibruje atď.
  • čo ma andrii model je lepší ako čo majú v USS
  • model nemá len vedieť povedať najočakávanejšiu hodnôt ale nech vie aj určovať distribúciu.. aby nepovedal že sira vyjde tak a tak ale že vyjde xy s takou pravdepodobnosťou ... dopočítane pravdepodobnosti
  • model s pravdepodobnosťou
  • porovnať ktorý model kedy funguje lepšie
  • prečo je taká vysoká presnosť? simulovanie meracieho pristroja s danou presnosťou pri normálnej distribúcii chyby
  • distribúcia pravdepodobnosti na výstupe

Stretnutie 2.2.2022

In progress:

  • Práca na prehľade článkov VAE-GAN
  • na (súkromný) git pridaný náhľad dát a tavný list
  • práca na Pandas skripte

Úlohy:

  • Dokončiť spacy článok
  • Dokončiť prehľad článkov
  • Pripraviť prezentáciu na spoločné stretnutie. Do prezentácie uveď čo si sa dozvedel o metódach VAE a GAN. Vysvetli, ako funguje "autoenkóder".
  • Napísať krátky blog vrátane odkazov nal literatúru o tom ako funguje neurónový jazykový model (BERT, Roberta, BART, GPT-3, XLNet). Ako funguje? Na čo všetko sa používa?

Stretnutie 18.1.2022

Úlohy:

  • Do git repozitára pridať súbor s podrobným popisom jednotlivých kolóniek v dátovej množine.
  • [-] Do git repozitára pridať skript na načítanie dát do Pandas formátu.
  • Vypracovať písomný prehľad metód modelovania procesov v oceliarni (kyslíkového konvertora BOS-basic oxygen steelmaking).
  • Nájsť oznam najnovších článkov k vyhľadávaciuemu heslu "gan time series", "vae time series", "sequence modeling,prediction" napísať ku nim komentár (abstrakt z abstraktu) a dať na git.
  • Preformulovať zadanie BP Stromp.
  • [-] Dokončiť draft článok spacy.

Zásobník úloh:

  • [-] Získať prehľad o najnovších metódach NLP - transformers,GAN, VAE a nájsť súvis s modelovaním BOS.
  • nájsť vhodnú implementáciu gan-vae v pythone pre analýzu časových radov alebo postupnosti.

Stretnutie 17.1.2022

  • Mme dáta z vysokej pece (500GB)
  • Zlepšený konvolučný autoenkóder - dosahuje state-of-the-art.
  • Prečítané niečo o transformers a word2vec.

Stretnutie 9.12.2021

  • Natrénovaný autoenkóder (feed-forward) pre predikciu celkovej váhy Fe a obsahu S.
  • dát je celkom dosť.

Úlohy:

  • Vyskúšať iné neurónové siete (keras?).
  • Pohľadať dátové množiny, ktoré sú podobné riešenej úlohe. Napr. Open Data.

Stretnutie 26.11.2021

Dáta z US Steel:

  • Najprv sa do vysokej pece nasypú suroviny.
  • Z tavby sa postupne odoberajú vzorky a meria sa množstvo jednotlivých vzoriek.
  • Na konci tavby sa robí finálna analýza taveniny.
  • Priebeh procesu závisí od vlastností konkrétnej pece. Sú vlastnosti pece stacionárne? Je možné , že vlastnosti pece sa v čase menia.
  • Cieľom je predpovedať výsledky anaýzy finálnej tavby na základe predošlých vzoriek?
  • Cieľom je predpovedať výsledky nasledujúceho odberu na základe predchádzajúcich?
  • Čo znamená "dobrá tavba"?
  • Čo znamená "dobrá predpoveď výsledkov"?
  • Je dôležitý čas odbery vzorky?

Zásobník úloh:

  • Formulovať problém ako "predikcia časových radov" - sequence prediction.
  • Nápad: The analysis of time series : an introduction / Chris Chatfield. 5th ed. Boca Raton : Chapman and Hall, 1996. xii, 283 s. (Chapman & Hall texts in statistical science series). - ISBN 0-412-71640-2 (brož.).
  • Prezrieť literatúru a zistiť najnovšie metódy na predikciu.
  • Navrhnúť metódu konverzie dát na vektor príznakov. Sú potrebné binárne vektory?
  • Navrhnúť metódu výpočtu chybovej funkcie - asi euklidovská vzdialenosť medzi výsledkov a očakávaním.
  • Vyskúšať navrhnúť rekurentnú neurónovú sieť - RNN, GRU, LSTM.
  • Nápad: Transformer network, Generative Adversarial Network.
  • Nápad: Vyskúšať klasické štatistické modely (scikit-learn) - napr. aproximácia polynómom, alebo SVM.

Stretnutie 1.10.

Stav:

  • Štúdium základov neurónových sietí
  • Úvodné stretnutie s US Steel

Úlohy:

  • Vypracovať prehľad aktuálnych metód grafových neurónových sietí
  • Nájsť a vyskúšať toolkit na GNN.
  • Vytvoriť pracovný repozitár na GITe.
  • Naštudovať dáta z US Steel.
  • Publikovať diplomovú prácu.

Diplomová práca 2021

Názov diplomovej práce: Neurónová morfologická anotácia slovenského jazyka

  1. Vysvetlite, ako funguje neurónová morfologická anotácia v knižnici Spacy. Vysvetlite, ako funguje predtrénovanie v knižnici Spacy.
  2. Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte základný model morfologickej anotácie pomocou knižnice Spacy.
  3. Pripravte model pre morfologickú anotáciu s pomocou predtrénovania.
  4. Vyhodnoťte presnosť značkovania modelov vo viacerých experimentoch a navrhnite možné zlepšenia.

Diplomový projekt 2 2020

Zásobník úloh:

  • skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky).
  • Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy.
  • vykonať a opísať viac experinentov s rôznymi nastaveniami.

Stretnutie 12.2.

Stav:

  • Práca na texte

Do ďalšieho stretnutia:

  • Opraviť text podľa ústnej spätnej väzby
  • Vysvetlite čo je to morfologická anotácia.
  • Vystvetlite ako sa robí? Ako funguje spacy neurónová sieť?
  • atď. predošlé textové úlohy z 30.10. 2020

Stretnutie 25.1.2021

Stav:

  • Urobená prezentácia, spracované experimenty do tabuľky.

Do ďalšieho stretnutia:

  • Pracovať na súvislom texte.

Virtuálne stretnutie 6.11.2020

Stav:

  • Prečítané (podrobne) 2 články a urobené poznámky. Poznánky sú na GITe.
  • Dorobené ďalšie experimenty.

Úlohy do ďalšieho stretnutia:

  • Pokračovať v otvorených úlohách.

Virtuálne stretnutie 30.10.2020

Stav:

  • Súbory sú na GIte
  • Vykonané experimenty, Výsledky experimentov sú v tabuľke
  • Návod na spustenie
  • Vyriešenie technických problémov. Je k dispozicíí Conda prostredie.

Úlohy na ďalšie stretnutie:

Virtuálne stretnutie 8.10.2020

Stav:

  • Podarilo sa vykonať pretrénovanie aj trénovanie, prvé výsledky experimentov.
  • pretrénovanie funguje na GPU, použila sa verzia spacy 2.2, trénovanie na IDOC
  • trénovanie ide lepšie na CPU
  • vyskytol sa problém že nevie alokovať viac ako 2GB RAM
  • 200 iterácií pretrénovania, 4000 riadkov viet

Úlohy do ďalšieho stretnutia:

  • Dať zdrojáky na GIT
  • Urobiť porovnanie voči presnosti bez pretrain
  • Výsledky dajte do tabuľky - aké parametre ste použili pri trénovaní a pretrénovaí?
  • experimenty si poznačte do skriptu aby sa dali zopakovať
  • Do článku (do súboru README na GIte) presne opíšte nastavenie experimentu - parametre, dáta a spôsob overenia, aspoň rozpracovať.
  • Začnite spisovať teoretickú časť článku, aspoň rozpracovať.

Stretnutie 25.9.2020

Stav:

  • chyba pri použití príkazu pretrain, ktorá sa objavila s novou verziou Spacy

Úlohy do ďalšieho stretnutia:

  • pokračovať so starou verziou Spacy (2.2)

Návrhy na zlepšenie:

  • Použiť viac textových dát.

Zvážiť publikovanie na: http://conf.uni-obuda.hu/sami2021/index.html

  • najprv napísať po slovensky, potom sa to preloží
  • opísať experimenty

Diplomový projekt 2020

Zdroje:

Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)

Stretnutie 23.6.2020:

Stretnutie 12.6.2020:

  • Pretrénovanie Fasttext a trénovanie POS Spacy modelu - ešte treba vylepšiť presnosť

K zápočtu:

  • Finálny okomentovaný skript pre trénovanie POS modelu podľa Slovak Treebank s pretrénovaním Fasttext.
  • Ak sa dá tak pri trénovaní využite GPU
  • Zistite výslednú presnosť, mala by byť nad 80 percent.
  • Porovnajte s presnosťou bez pretrénovania.

Virtuálne stretnutie 15.5.2020:

  • Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach.
  • Vytvorený repozitár

Nové úlohy:

Revízia 9.4.2020:

Report o doterajšej práci:

  • naštudovanie Fasttext
  • implementácia do Spacy
  • úprava modelu v spacy na rozpoznanie jazyka
  • snaha o spacy-udpipe pre non-English text

Nové úlohy:

  • pridajte zdrojový text a odkaz na "implementáciu".
  • natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
  • skúste pridať "word-embeddingy" z fasttext do trénovania.
  • vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť?
  • porozmýšľajte ako sa dá presnosť zlepšiť.

Stretnutie 5.3.2020:

Úlohy na ďalšie stretnutie:

  • zobrať alebo vytvoriť fasttext model
  • pozrieť sa na spacy pretrain - tam sa bude dať využiť fasttext model
  • vložiť ho do spacy modelu pomocou spacy pretrain
  • pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
  • porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset

Poznámka:

Stretnutie: 20.2.2020:

Úlohy na ďalšie stretnutie:

Tímový projekt 2019

Projektové stránky:

Spacy tutoriál

  • Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).