du707zr/dmytro_ushatenko

Fork 0

forked from KEMT/zpwiki

dano 915bd89914 Update 'pages/students/2016/maros_harahus/README.md'

2022-02-25 08:47:24 +00:00

13 KiB

Raw Blame History

title

published

taxonomy

Maroš Harahus

true

Maroš Harahus

GIT repozitár s poznámkami

Dizertačná práca

Generovanie vektorových reprezentácií štruktúrovaných dát.

Minimovka 2023

Grafové neurónové siete

Report 25.02.2022

Prehlaď o jazykových modeloch (BERT, RoBERTa, BART, XLNet, GPT-3) (spracovane poznámky na gite)
Prehlaď o time-series GAN
Úprava skriptu z peci jsnol -- > csv
Skúšanie programu GAN na generovanie obrázkov (na pochopenie ako to funguje)
Hľadanie vhodnej implementácie na generovanie dát
Rozpracovaná (veľmi malo) analýza datasetu peci

Záznam z porady 24.2:

tavby za sebou súvisia kvôli kalibrácii .. x tavieb
overiť anomálie v dátach .. ci je problém signifikantný...atď.
pýtať sa na druh šrotu, lebo niektoré sú podobne
prečo mame rozdelene modely_ nebude stačiť jeden model ?
možná kalibrácia , zisti prečo sú horšie dáva ? ci to je kvôli senzorom alebo kedy sa kalibruje atď.
čo ma andrii model je lepší ako čo majú v USS
model nemá len vedieť povedať najočakávanejšiu hodnôt ale nech vie aj určovať distribúciu.. aby nepovedal že sira vyjde tak a tak ale že vyjde xy s takou pravdepodobnosťou ... dopočítane pravdepodobnosti
model s pravdepodobnosťou
porovnať ktorý model kedy funguje lepšie
prečo je taká vysoká presnosť? simulovanie meracieho pristroja s danou presnosťou pri normálnej distribúcii chyby
distribúcia pravdepodobnosti na výstupe

Stretnutie 2.2.2022

In progress:

Práca na prehľade článkov VAE-GAN
na (súkromný) git pridaný náhľad dát a tavný list
práca na Pandas skripte

Úlohy:

Dokončiť spacy článok
Dokončiť prehľad článkov
Pripraviť prezentáciu na spoločné stretnutie. Do prezentácie uveď čo si sa dozvedel o metódach VAE a GAN. Vysvetli, ako funguje "autoenkóder".
Napísať krátky blog vrátane odkazov nal literatúru o tom ako funguje neurónový jazykový model (BERT, Roberta, BART, GPT-3, XLNet). Ako funguje? Na čo všetko sa používa?

Stretnutie 18.1.2022

Úlohy:

Do git repozitára pridať súbor s podrobným popisom jednotlivých kolóniek v dátovej množine.
[-] Do git repozitára pridať skript na načítanie dát do Pandas formátu.
Vypracovať písomný prehľad metód modelovania procesov v oceliarni (kyslíkového konvertora BOS-basic oxygen steelmaking).
Nájsť oznam najnovších článkov k vyhľadávaciuemu heslu "gan time series", "vae time series", "sequence modeling,prediction" napísať ku nim komentár (abstrakt z abstraktu) a dať na git.
Preformulovať zadanie BP Stromp.
[-] Dokončiť draft článok spacy.

Zásobník úloh:

[-] Získať prehľad o najnovších metódach NLP - transformers,GAN, VAE a nájsť súvis s modelovaním BOS.
nájsť vhodnú implementáciu gan-vae v pythone pre analýzu časových radov alebo postupnosti.

Stretnutie 17.1.2022

Mme dáta z vysokej pece (500GB)
Zlepšený konvolučný autoenkóder - dosahuje state-of-the-art.
Prečítané niečo o transformers a word2vec.

Stretnutie 9.12.2021

Natrénovaný autoenkóder (feed-forward) pre predikciu celkovej váhy Fe a obsahu S.
dát je celkom dosť.

Úlohy:

Vyskúšať iné neurónové siete (keras?).
Pohľadať dátové množiny, ktoré sú podobné riešenej úlohe. Napr. Open Data.

Stretnutie 26.11.2021

Dáta z US Steel:

Najprv sa do vysokej pece nasypú suroviny.
Z tavby sa postupne odoberajú vzorky a meria sa množstvo jednotlivých vzoriek.
Na konci tavby sa robí finálna analýza taveniny.
Priebeh procesu závisí od vlastností konkrétnej pece. Sú vlastnosti pece stacionárne? Je možné , že vlastnosti pece sa v čase menia.
Cieľom je predpovedať výsledky anaýzy finálnej tavby na základe predošlých vzoriek?
Cieľom je predpovedať výsledky nasledujúceho odberu na základe predchádzajúcich?
Čo znamená "dobrá tavba"?
Čo znamená "dobrá predpoveď výsledkov"?
Je dôležitý čas odbery vzorky?

Zásobník úloh:

Formulovať problém ako "predikcia časových radov" - sequence prediction.
Nápad: The analysis of time series : an introduction / Chris Chatfield. 5th ed. Boca Raton : Chapman and Hall, 1996. xii, 283 s. (Chapman & Hall texts in statistical science series). - ISBN 0-412-71640-2 (brož.).
Prezrieť literatúru a zistiť najnovšie metódy na predikciu.
Navrhnúť metódu konverzie dát na vektor príznakov. Sú potrebné binárne vektory?
Navrhnúť metódu výpočtu chybovej funkcie - asi euklidovská vzdialenosť medzi výsledkov a očakávaním.
Vyskúšať navrhnúť rekurentnú neurónovú sieť - RNN, GRU, LSTM.
Nápad: Transformer network, Generative Adversarial Network.
Nápad: Vyskúšať klasické štatistické modely (scikit-learn) - napr. aproximácia polynómom, alebo SVM.

Stretnutie 1.10.

Stav:

Štúdium základov neurónových sietí
Úvodné stretnutie s US Steel

Úlohy:

Vypracovať prehľad aktuálnych metód grafových neurónových sietí
Nájsť a vyskúšať toolkit na GNN.
Vytvoriť pracovný repozitár na GITe.
Naštudovať dáta z US Steel.
Publikovať diplomovú prácu.

Diplomová práca 2021

Názov diplomovej práce: Neurónová morfologická anotácia slovenského jazyka

Vysvetlite, ako funguje neurónová morfologická anotácia v knižnici Spacy. Vysvetlite, ako funguje predtrénovanie v knižnici Spacy.
Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte základný model morfologickej anotácie pomocou knižnice Spacy.
Pripravte model pre morfologickú anotáciu s pomocou predtrénovania.
Vyhodnoťte presnosť značkovania modelov vo viacerých experimentoch a navrhnite možné zlepšenia.

Diplomový projekt 2 2020

Zásobník úloh:

skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky).
Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy.
vykonať a opísať viac experinentov s rôznymi nastaveniami.

Stretnutie 12.2.

Stav:

Práca na texte

Do ďalšieho stretnutia:

Opraviť text podľa ústnej spätnej väzby
Vysvetlite čo je to morfologická anotácia.
Vystvetlite ako sa robí? Ako funguje spacy neurónová sieť?
atď. predošlé textové úlohy z 30.10. 2020

Stretnutie 25.1.2021

Stav:

Urobená prezentácia, spracované experimenty do tabuľky.

Do ďalšieho stretnutia:

Pracovať na súvislom texte.

Virtuálne stretnutie 6.11.2020

Stav:

Prečítané (podrobne) 2 články a urobené poznámky. Poznánky sú na GITe.
Dorobené ďalšie experimenty.

Úlohy do ďalšieho stretnutia:

Pokračovať v otvorených úlohách.

Virtuálne stretnutie 30.10.2020

Stav:

Súbory sú na GIte
Vykonané experimenty, Výsledky experimentov sú v tabuľke
Návod na spustenie
Vyriešenie technických problémov. Je k dispozicíí Conda prostredie.

Úlohy na ďalšie stretnutie:

Preštudovať literatúru na tému "pretrain" a "word embedding"
- Healthcare NER Models Using Language Model Pretraining
- Design and implementation of an open source Greek POS Tagger and Entity Recognizer using spaCy
- https://arxiv.org/abs/1909.00505
- https://arxiv.org/abs/1607.04606
- LSTM, recurrent neural network,
- Urobte si poznámky z viacerých čnánkov, poznačte si zdroj a čo ste sa dozvedeli.
Vykonať viacero experimentov s pretrénovaním - rôzne modely, rôzne veľkosti adaptačných dát a zostaviť tabuľku
Opísať pretrénovanie, zhrnúť vplyv pretrénovania na trénovanie v krátkom článku cca 10 strán.

Virtuálne stretnutie 8.10.2020

Stav:

Podarilo sa vykonať pretrénovanie aj trénovanie, prvé výsledky experimentov.
pretrénovanie funguje na GPU, použila sa verzia spacy 2.2, trénovanie na IDOC
trénovanie ide lepšie na CPU
vyskytol sa problém že nevie alokovať viac ako 2GB RAM
200 iterácií pretrénovania, 4000 riadkov viet

Úlohy do ďalšieho stretnutia:

Dať zdrojáky na GIT
Urobiť porovnanie voči presnosti bez pretrain
Výsledky dajte do tabuľky - aké parametre ste použili pri trénovaní a pretrénovaí?
experimenty si poznačte do skriptu aby sa dali zopakovať
Do článku (do súboru README na GIte) presne opíšte nastavenie experimentu - parametre, dáta a spôsob overenia, aspoň rozpracovať.
Začnite spisovať teoretickú časť článku, aspoň rozpracovať.

Stretnutie 25.9.2020

Stav:

chyba pri použití príkazu pretrain, ktorá sa objavila s novou verziou Spacy

Úlohy do ďalšieho stretnutia:

pokračovať so starou verziou Spacy (2.2)

Návrhy na zlepšenie:

Použiť viac textových dát.

Zvážiť publikovanie na: http://conf.uni-obuda.hu/sami2021/index.html

najprv napísať po slovensky, potom sa to preloží
opísať experimenty

Diplomový projekt 2020

Zdroje:

Jazykové zdroje

Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)

Úlohy na tento semester:
- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)
- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
- Natrénovať Spacy Model s POS a s pretrénovaním

Stretnutie 23.6.2020:

Výsledok: Skript na trénovanie Spacy POS

Stretnutie 12.6.2020:

Pretrénovanie Fasttext a trénovanie POS Spacy modelu - ešte treba vylepšiť presnosť

K zápočtu:

Finálny okomentovaný skript pre trénovanie POS modelu podľa Slovak Treebank s pretrénovaním Fasttext.
Ak sa dá tak pri trénovaní využite GPU
Zistite výslednú presnosť, mala by byť nad 80 percent.
Porovnajte s presnosťou bez pretrénovania.

Virtuálne stretnutie 15.5.2020:

Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach.
Vytvorený repozitár

Nové úlohy:

Podrobne preštudovať a realizovať spacy pretrain
Blog o Spacy pretrain

Revízia 9.4.2020:

Report o doterajšej práci:

naštudovanie Fasttext
implementácia do Spacy
úprava modelu v spacy na rozpoznanie jazyka
snaha o spacy-udpipe pre non-English text

Nové úlohy:

pridajte zdrojový text a odkaz na "implementáciu".
natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
skúste pridať "word-embeddingy" z fasttext do trénovania.
vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť?
porozmýšľajte ako sa dá presnosť zlepšiť.

Stretnutie 5.3.2020:

Úlohy na ďalšie stretnutie:

zobrať alebo vytvoriť fasttext model
pozrieť sa na spacy pretrain - tam sa bude dať využiť fasttext model
vložiť ho do spacy modelu pomocou spacy pretrain
pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset

Poznámka:

Aktivovaná Omega
Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup
už existuje mapovanie Universal Dependencie na SNK tagset

Stretnutie: 20.2.2020:

Úlohy na ďalšie stretnutie:

Pozrieť https://spacy.io/usage/training#tagger-parser
Pozrieť si čo je word embedding - word2vec, fasttext, glove
Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html
Ako natrénovať Spacy POS model?

Tímový projekt 2019

Projektové stránky:

Spacy tutoriál

Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).

13 KiB Raw Blame History

Maroš Harahus

Dizertačná práca

Minimovka 2023

Diplomová práca 2021

Diplomový projekt 2 2020

Diplomový projekt 2020

Tímový projekt 2019

13 KiB

Raw Blame History