dmytro_ushatenko/pages/students/2016/maros_harahus/README.md

---
title: Maroš Harahus
published: true
taxonomy:
    category: [dp2021,bp2019]
    tag: [spacy,nlp]
    author: Daniel Hladek
---
# Maroš Harahus

- [GIT repozitár s poznámkami](https://git.kemt.fei.tuke.sk/mh496vd/Doktorandske)

## Dizertačná práca

Generovanie vektorových reprezentácií štruktúrovaných dát.

## Minimovka 2023

- Grafové neurónové siete

Stretnutie 17.1.2022

- Mme dáta z vysokej pece (500GB)
- Zlepšený konvolučný autoenkóder - dosahuje state-of-the-art.
- Prečítané niečo o transformers a word2vec.

Poznámky k porade 17.1.2022: 

Prezentácia Lukáš:

- Je rozdiel medzi konvertormi:
-    len v parametre síra.
    - v konertoroc je rozdiel, každý má inú charakteristiku.
vytvorenie "zhustenej" reprezentácie dát - (deep) autoenkóder + LSTM.
- tavba je časovo závislý proces. 
- cieľom je vytvorenie modelu - "zhustenej reprezentácie" na predpovedanie rôznych veličín. Predpovedný model je možné použiť na optimalizáciu

Niekoľko odkazov:

- https://thermocalc.com/academia/free-educational-package/
- https://reader.elsevier.com/reader/sd/pii/S2352492820302178?token=5EA4D3B31E698BEEAE4DB08361F9F985EC80CAF012A4EE2E8EF11479A93BE1F14C1023E529FFE200659FE8A452345596&originRegion=eu-west-1&originCreation=20220117153447
- Sandip Barui, Sankha Mukherjee, Amiy Srivastava,  Kinnor Chattopadhyay : Understanding Dephosphorization in Basic OxygenFurnaces (BOFs) Using Data DrivenModeling Techniques
- https://www.chemeurope.com/en/encyclopedia/Basic_oxygen_steelmaking.html

Čo ďalej:

- Jednoducho predspracovať dáta
- Vytvoriť generatívny model (GAN,VAE).
- Ako vyčistiť dáta?


Úlohy:

- Spracovanie prehľadu o modelovaní vysokých pecí (prezentácia do konca februára, zatiaľ dva zdroje).
- Prehľad o spracovaní prir. jazyka - zistiť ako by sa to dalo použiť na modelovanie vysokej pece.
- Článok o Spacy.
- Na spracovanie dát z US Steelu použiť Pandas.
- Vytvoriť dokumentáciu k dátam. Na git s poznámkami vytvoriť súbor, kde opíšeš dáta a pridáš skript Pandas na spracovanie. 


Stretnutie 9.12.2021

- Natrénovaný autoenkóder  (feed-forward) pre predikciu celkovej váhy Fe a obsahu S.
- dát je celkom dosť.

Úlohy:

- Vyskúšať iné neurónové siete (keras?).
- Pohľadať dátové množiny, ktoré sú podobné riešenej úlohe. Napr. Open Data.

Stretnutie 26.11.2021

Dáta z US Steel:

- Najprv sa do vysokej pece nasypú suroviny.
- Z tavby sa postupne odoberajú vzorky a meria sa množstvo jednotlivých vzoriek.
- Na konci tavby sa robí finálna analýza taveniny.
- Priebeh procesu závisí od vlastností konkrétnej pece. Sú vlastnosti pece stacionárne? Je možné , že vlastnosti pece sa v čase menia.
- Cieľom je predpovedať výsledky anaýzy finálnej tavby na základe predošlých vzoriek.
- Cieľom je predpovedať výsledky nasledujúceho odberu na základe predchádzajúcich?
- Čo znamená "dobrá tavba"?
- Čo znamená "dobrá predpoveď výsledkov"?  
- Je dôležitý čas odbery vzorky?

Zásobník úloh:

- Formulovať problém ako "predikcia časových radov" - sequence prediction.
- Nápad: The analysis of time series : an introduction / Chris Chatfield. 5th ed. Boca Raton : Chapman and Hall, 1996. xii, 283 s. (Chapman & Hall texts in statistical science series). - ISBN 0-412-71640-2 (brož.).
- Prezrieť literatúru a zistiť najnovšie metódy na predikciu.
- Navrhnúť metódu konverzie dát na vektor príznakov. Sú potrebné binárne vektory?
- Navrhnúť metódu výpočtu chybovej funkcie - asi euklidovská vzdialenosť medzi výsledkov a očakávaním.
- Vyskúšať navrhnúť rekurentnú neurónovú sieť - RNN, GRU, LSTM.
- Nápad: Transformer network, Generative Adversarial Network.
- Nápad: Vyskúšať klasické štatistické modely (scikit-learn) - napr. aproximácia polynómom, alebo SVM.


Stretnutie 1.10.

Stav:

- Štúdium základov neurónových sietí
- Úvodné stretnutie s US Steel

Úlohy:

- Vypracovať prehľad aktuálnych metód grafových neurónových sietí
- Nájsť a vyskúšať toolkit na GNN.
- Vytvoriť pracovný repozitár na GITe.
- Naštudovať dáta z US Steel.
- Publikovať diplomovú prácu.


## Diplomová práca 2021

- [CRZP](https://opac.crzp.sk/?fn=detailBiblioForm&sid=ECC3D3F0B3159C4F3216E2027BE4)
- [Zdrojové kódy](https://git.kemt.fei.tuke.sk/mh496vd/diplomovka/)

Názov diplomovej práce: Neurónová morfologická anotácia slovenského jazyka

1. Vysvetlite, ako funguje neurónová morfologická anotácia v knižnici Spacy. Vysvetlite, ako funguje predtrénovanie v knižnici Spacy.
2. Pripravte slovenské  trénovacie dáta vo vhodnom formáte a natrénujte základný  model morfologickej anotácie pomocou knižnice Spacy.
3. Pripravte model pre morfologickú anotáciu s pomocou predtrénovania.
4. Vyhodnoťte presnosť značkovania modelov vo viacerých experimentoch a navrhnite možné zlepšenia.

## Diplomový projekt 2 2020

Zásobník úloh:

- skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky).
- Využiť korpus Multext East pri trénovaní.  Vytvoriť mapovanie Multext Tagov na SNK Tagy.
- vykonať a opísať viac experinentov s rôznymi nastaveniami.

Stretnutie 12.2.

Stav:

- Práca na texte

Do ďalšieho stretnutia:

- Opraviť text podľa ústnej spätnej väzby 
- Vysvetlite čo je to morfologická anotácia.
- Vystvetlite ako sa robí? Ako funguje spacy neurónová sieť?
- atď. predošlé textové úlohy z 30.10. 2020


Stretnutie 25.1.2021

Stav:

- Urobená prezentácia, spracované experimenty do tabuľky.

Do ďalšieho stretnutia:

- Pracovať na súvislom texte.

Virtuálne stretnutie 6.11.2020

Stav:

- Prečítané (podrobne) 2 články a urobené poznámky. Poznánky sú na GITe.
- Dorobené ďalšie experimenty.

Úlohy do ďalšieho stretnutia:

- Pokračovať v otvorených úlohách.


Virtuálne stretnutie 30.10.2020

Stav:

- Súbory sú na GIte
- Vykonané experimenty, Výsledky experimentov sú v tabuľke
- Návod na spustenie
- Vyriešenie technických problémov. Je k dispozicíí Conda prostredie.

Úlohy na ďalšie stretnutie:

- Preštudovať literatúru na tému "pretrain" a "word embedding"
    - [Healthcare NER Models Using Language Model Pretraining](http://ceur-ws.org/Vol-2551/paper-04.pdf)
    - [Design and implementation of an open source Greek POS Tagger and Entity Recognizer using spaCy](https://ieeexplore.ieee.org/abstract/document/8909591)
    - https://arxiv.org/abs/1909.00505
    - https://arxiv.org/abs/1607.04606
    - LSTM, recurrent neural network, 
    - Urobte si poznámky z viacerých čnánkov, poznačte si zdroj a čo ste sa dozvedeli.
- Vykonať viacero experimentov s pretrénovaním - rôzne modely, rôzne veľkosti adaptačných dát a zostaviť tabuľku
- Opísať pretrénovanie, zhrnúť vplyv pretrénovania na trénovanie v krátkom článku cca 10 strán.


Virtuálne stretnutie 8.10.2020

Stav:
- Podarilo sa vykonať pretrénovanie aj trénovanie, prvé výsledky experimentov.
- pretrénovanie funguje na GPU, použila sa verzia spacy 2.2, trénovanie na IDOC
- trénovanie ide lepšie na CPU
- vyskytol sa problém že nevie alokovať viac ako 2GB RAM
- 200 iterácií pretrénovania, 4000 riadkov viet

Úlohy do ďalšieho stretnutia:
- Dať zdrojáky na GIT
- Urobiť porovnanie voči presnosti bez pretrain
- Výsledky dajte do tabuľky - aké parametre ste použili pri trénovaní a pretrénovaí?
- experimenty si poznačte do skriptu aby sa dali zopakovať
- Do článku (do súboru README na GIte) presne opíšte nastavenie experimentu - parametre, dáta a spôsob overenia, aspoň rozpracovať.
- Začnite spisovať teoretickú časť článku, aspoň rozpracovať.

Stretnutie 25.9.2020

Stav:
- chyba pri použití príkazu pretrain, ktorá sa objavila s novou verziou Spacy

Úlohy do ďalšieho stretnutia:
- pokračovať so starou verziou Spacy (2.2)

Návrhy na zlepšenie:
- Použiť viac textových dát.

Zvážiť publikovanie na: http://conf.uni-obuda.hu/sami2021/index.html
- najprv napísať po slovensky, potom sa to preloží
- opísať experimenty

## Diplomový projekt 2020

Zdroje:

- [Jazykové zdroje](/topics/resources)


Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair) 

- Úlohy na tento semester: 
    - Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora  (MultextEast)
    - Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html
    - Oboznámte sa so sadou SNK https://korpus.sk/morpho.html
    - Natrénovať Spacy Model s POS a s pretrénovaním

Stretnutie 23.6.2020:

- Výsledok: [Skript na trénovanie Spacy POS](https://git.kemt.fei.tuke.sk/mh496vd/diplomovka/src/branch/master/script.sh)

Stretnutie 12.6.2020:

- Pretrénovanie Fasttext a trénovanie POS Spacy modelu - ešte treba vylepšiť presnosť 

K zápočtu:

- Finálny okomentovaný skript pre trénovanie POS modelu podľa Slovak Treebank s pretrénovaním Fasttext. 
- Ak sa dá tak pri trénovaní využite GPU
- Zistite výslednú presnosť, mala by byť nad 80 percent.
- Porovnajte s presnosťou bez pretrénovania.


Virtuálne stretnutie 15.5.2020:

- Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach.
- Vytvorený [repozitár](https://git.kemt.fei.tuke.sk/mh496vd/diplomovka)

Nové úlohy:

- Podrobne preštudovať a realizovať [spacy pretrain](https://spacy.io/api/cli#pretrain)
- [Blog o Spacy pretrain](https://explosion.ai/blog/spacy-v2-1)


Revízia 9.4.2020:

Report o doterajšej práci:

- naštudovanie Fasttext
- implementácia do Spacy
- úprava modelu v spacy na rozpoznanie jazyka
- snaha o spacy-udpipe pre  non-English text

Nové úlohy:

- pridajte zdrojový text a odkaz na "implementáciu".
- natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
- skúste pridať "word-embeddingy" z fasttext do trénovania.
- vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť?
- porozmýšľajte ako sa dá presnosť zlepšiť.


Stretnutie 5.3.2020:

Úlohy na ďalšie stretnutie:

- zobrať alebo vytvoriť fasttext model
- pozrieť sa na [spacy pretrain](https://spacy.io/api/cli) - tam sa bude dať využiť fasttext model
- vložiť ho do spacy modelu pomocou `spacy pretrain`
- pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT
- porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset

Poznámka:

- Aktivovaná Omega
- Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup
- už existuje mapovanie [Universal Dependencie na SNK tagset](https://github.com/explosion/spaCy/blob/master/spacy/lang/sk/tag_map.py)


Stretnutie: 20.2.2020:

Úlohy na ďalšie stretnutie:

- Pozrieť https://spacy.io/usage/training#tagger-parser
- Pozrieť si čo je word embedding - word2vec, fasttext, glove
- Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html
- Ako natrénovať Spacy POS model?


## Tímový projekt 2019

Projektové stránky:

- [Spracovanie prirodzeného jazyka](/topics/nlp)
- [Python](/topics/python)
- [Podpora slovenčiny v knižnici Spacy](/topics/spacy)


[Spacy tutoriál](./timovy_projekt)

- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).
zz 2020-10-01 13:33:21 +00:00			`---`
			`title: Maroš Harahus`
			`published: true`
			`taxonomy:`
zz 2020-10-01 13:46:14 +00:00			`category: [dp2021,bp2019]`
zz 2020-10-01 13:33:21 +00:00			`tag: [spacy,nlp]`
			`author: Daniel Hladek`
			`---`
harahus info 2019-12-05 09:12:50 +00:00			`# Maroš Harahus`
Update 'pages/students/2016/maros_harahus/README.md' 2020-09-25 07:37:01 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-11 08:04:53 +00:00			`- [GIT repozitár s poznámkami](https://git.kemt.fei.tuke.sk/mh496vd/Doktorandske)`

Update 'pages/students/2016/maros_harahus/README.md' 2021-10-01 07:48:58 +00:00			`## Dizertačná práca`

			`Generovanie vektorových reprezentácií štruktúrovaných dát.`

			`## Minimovka 2023`

			`- Grafové neurónové siete`

Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 13:45:22 +00:00			`Stretnutie 17.1.2022`

			`- Mme dáta z vysokej pece (500GB)`
			`- Zlepšený konvolučný autoenkóder - dosahuje state-of-the-art.`
			`- Prečítané niečo o transformers a word2vec.`

Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 15:40:31 +00:00			`Poznámky k porade 17.1.2022:`
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 14:16:32 +00:00
			`Prezentácia Lukáš:`

			`- Je rozdiel medzi konvertormi:`
			`- len v parametre síra.`
			`- v konertoroc je rozdiel, každý má inú charakteristiku.`
			`vytvorenie "zhustenej" reprezentácie dát - (deep) autoenkóder + LSTM.`
			`- tavba je časovo závislý proces.`
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 15:41:20 +00:00			`- cieľom je vytvorenie modelu - "zhustenej reprezentácie" na predpovedanie rôznych veličín. Predpovedný model je možné použiť na optimalizáciu`
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 14:16:32 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 15:40:31 +00:00			`Niekoľko odkazov:`

			`- https://thermocalc.com/academia/free-educational-package/`
			`- https://reader.elsevier.com/reader/sd/pii/S2352492820302178?token=5EA4D3B31E698BEEAE4DB08361F9F985EC80CAF012A4EE2E8EF11479A93BE1F14C1023E529FFE200659FE8A452345596&originRegion=eu-west-1&originCreation=20220117153447`
			`- Sandip Barui, Sankha Mukherjee, Amiy Srivastava, Kinnor Chattopadhyay : Understanding Dephosphorization in Basic OxygenFurnaces (BOFs) Using Data DrivenModeling Techniques`
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 15:42:30 +00:00			`- https://www.chemeurope.com/en/encyclopedia/Basic_oxygen_steelmaking.html`
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 15:40:31 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 15:44:27 +00:00			`Čo ďalej:`
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 15:40:31 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 15:44:27 +00:00			`- Jednoducho predspracovať dáta`
			`- Vytvoriť generatívny model (GAN,VAE).`
			`- Ako vyčistiť dáta?`
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 15:40:31 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 14:16:32 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 13:58:37 +00:00			`Úlohy:`
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 13:45:22 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 13:58:37 +00:00			`- Spracovanie prehľadu o modelovaní vysokých pecí (prezentácia do konca februára, zatiaľ dva zdroje).`
			`- Prehľad o spracovaní prir. jazyka - zistiť ako by sa to dalo použiť na modelovanie vysokej pece.`
			`- Článok o Spacy.`
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 14:00:34 +00:00			`- Na spracovanie dát z US Steelu použiť Pandas.`
			`- Vytvoriť dokumentáciu k dátam. Na git s poznámkami vytvoriť súbor, kde opíšeš dáta a pridáš skript Pandas na spracovanie.`
Update 'pages/students/2016/maros_harahus/README.md' 2022-01-17 13:45:22 +00:00

Update 'pages/students/2016/maros_harahus/README.md' 2021-12-09 09:08:04 +00:00			`Stretnutie 9.12.2021`

			`- Natrénovaný autoenkóder (feed-forward) pre predikciu celkovej váhy Fe a obsahu S.`
			`- dát je celkom dosť.`

			`Úlohy:`

			`- Vyskúšať iné neurónové siete (keras?).`
Update 'pages/students/2016/maros_harahus/README.md' 2021-12-09 09:11:59 +00:00			`- Pohľadať dátové množiny, ktoré sú podobné riešenej úlohe. Napr. Open Data.`
Update 'pages/students/2016/maros_harahus/README.md' 2021-12-09 09:08:04 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 07:23:57 +00:00			`Stretnutie 26.11.2021`

			`Dáta z US Steel:`

			`- Najprv sa do vysokej pece nasypú suroviny.`
			`- Z tavby sa postupne odoberajú vzorky a meria sa množstvo jednotlivých vzoriek.`
			`- Na konci tavby sa robí finálna analýza taveniny.`
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 07:26:08 +00:00			`- Priebeh procesu závisí od vlastností konkrétnej pece. Sú vlastnosti pece stacionárne? Je možné , že vlastnosti pece sa v čase menia.`
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 07:23:57 +00:00			`- Cieľom je predpovedať výsledky anaýzy finálnej tavby na základe predošlých vzoriek.`
			`- Cieľom je predpovedať výsledky nasledujúceho odberu na základe predchádzajúcich?`
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 07:32:53 +00:00			`- Čo znamená "dobrá tavba"?`
			`- Čo znamená "dobrá predpoveď výsledkov"?`
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 08:15:05 +00:00			`- Je dôležitý čas odbery vzorky?`
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 07:23:57 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 07:48:27 +00:00			`Zásobník úloh:`

			`- Formulovať problém ako "predikcia časových radov" - sequence prediction.`
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 08:15:05 +00:00			`- Nápad: The analysis of time series : an introduction / Chris Chatfield. 5th ed. Boca Raton : Chapman and Hall, 1996. xii, 283 s. (Chapman & Hall texts in statistical science series). - ISBN 0-412-71640-2 (brož.).`
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 07:48:27 +00:00			`- Prezrieť literatúru a zistiť najnovšie metódy na predikciu.`
			`- Navrhnúť metódu konverzie dát na vektor príznakov. Sú potrebné binárne vektory?`
			`- Navrhnúť metódu výpočtu chybovej funkcie - asi euklidovská vzdialenosť medzi výsledkov a očakávaním.`
			`- Vyskúšať navrhnúť rekurentnú neurónovú sieť - RNN, GRU, LSTM.`
			`- Nápad: Transformer network, Generative Adversarial Network.`
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 07:49:57 +00:00			`- Nápad: Vyskúšať klasické štatistické modely (scikit-learn) - napr. aproximácia polynómom, alebo SVM.`
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 07:48:27 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-26 08:15:05 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-01 07:48:58 +00:00			`Stretnutie 1.10.`

			`Stav:`

			`- Štúdium základov neurónových sietí`
			`- Úvodné stretnutie s US Steel`

			`Úlohy:`

			`- Vypracovať prehľad aktuálnych metód grafových neurónových sietí`
			`- Nájsť a vyskúšať toolkit na GNN.`
			`- Vytvoriť pracovný repozitár na GITe.`
			`- Naštudovať dáta z US Steel.`
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-01 07:58:37 +00:00			`- Publikovať diplomovú prácu.`
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-01 07:48:58 +00:00


Update 'pages/students/2016/maros_harahus/README.md' 2021-10-01 10:12:19 +00:00			`## Diplomová práca 2021`
Update 'pages/students/2016/maros_harahus/README.md' 2021-02-02 14:32:16 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-01 10:16:19 +00:00			`- [CRZP](https://opac.crzp.sk/?fn=detailBiblioForm&sid=ECC3D3F0B3159C4F3216E2027BE4)`
			`- [Zdrojové kódy](https://git.kemt.fei.tuke.sk/mh496vd/diplomovka/)`
Update 'pages/students/2016/maros_harahus/README.md' 2021-02-02 14:32:16 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2021-10-01 10:12:19 +00:00			`Názov diplomovej práce: Neurónová morfologická anotácia slovenského jazyka`
Update 'pages/students/2016/maros_harahus/README.md' 2021-02-02 14:32:16 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2021-02-12 13:47:22 +00:00			`1. Vysvetlite, ako funguje neurónová morfologická anotácia v knižnici Spacy. Vysvetlite, ako funguje predtrénovanie v knižnici Spacy.`
			`2. Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte základný model morfologickej anotácie pomocou knižnice Spacy.`
			`3. Pripravte model pre morfologickú anotáciu s pomocou predtrénovania.`
			`4. Vyhodnoťte presnosť značkovania modelov vo viacerých experimentoch a navrhnite možné zlepšenia.`
Update 'pages/students/2016/maros_harahus/README.md' 2021-01-25 12:46:31 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-09-25 07:37:01 +00:00			`## Diplomový projekt 2 2020`

Update 'pages/students/2016/maros_harahus/README.md' 2020-10-08 13:34:19 +00:00			`Zásobník úloh:`

			`- skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky).`
			`- Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy.`
Update 'pages/students/2016/maros_harahus/README.md' 2021-02-12 13:53:37 +00:00			`- vykonať a opísať viac experinentov s rôznymi nastaveniami.`
Update 'pages/students/2016/maros_harahus/README.md' 2020-10-08 13:34:19 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2021-02-12 13:49:51 +00:00			`Stretnutie 12.2.`

			`Stav:`

			`- Práca na texte`

			`Do ďalšieho stretnutia:`

			`- Opraviť text podľa ústnej spätnej väzby`
Update 'pages/students/2016/maros_harahus/README.md' 2021-02-12 13:53:37 +00:00			`- Vysvetlite čo je to morfologická anotácia.`
			`- Vystvetlite ako sa robí? Ako funguje spacy neurónová sieť?`
			`- atď. predošlé textové úlohy z 30.10. 2020`
Update 'pages/students/2016/maros_harahus/README.md' 2021-02-12 13:49:51 +00:00

Update 'pages/students/2016/maros_harahus/README.md' 2021-01-25 12:46:31 +00:00			`Stretnutie 25.1.2021`

			`Stav:`

			`- Urobená prezentácia, spracované experimenty do tabuľky.`

			`Do ďalšieho stretnutia:`

			`- Pracovať na súvislom texte.`
Update 'pages/students/2016/maros_harahus/README.md' 2020-10-08 13:34:19 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-11-06 12:18:48 +00:00			`Virtuálne stretnutie 6.11.2020`

			`Stav:`

Update 'pages/students/2016/maros_harahus/README.md' 2020-11-06 12:25:26 +00:00			`- Prečítané (podrobne) 2 články a urobené poznámky. Poznánky sú na GITe.`
			`- Dorobené ďalšie experimenty.`
Update 'pages/students/2016/maros_harahus/README.md' 2020-11-06 12:18:48 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-11-06 12:25:26 +00:00			`Úlohy do ďalšieho stretnutia:`

			`- Pokračovať v otvorených úlohách.`
Update 'pages/students/2016/maros_harahus/README.md' 2020-11-06 12:18:48 +00:00

Update 'pages/students/2016/maros_harahus/README.md' 2020-10-30 09:24:09 +00:00			`Virtuálne stretnutie 30.10.2020`

			`Stav:`

			`- Súbory sú na GIte`
			`- Vykonané experimenty, Výsledky experimentov sú v tabuľke`
			`- Návod na spustenie`
			`- Vyriešenie technických problémov. Je k dispozicíí Conda prostredie.`

Update 'pages/students/2016/maros_harahus/README.md' 2020-11-06 12:18:48 +00:00			`Úlohy na ďalšie stretnutie:`
Update 'pages/students/2016/maros_harahus/README.md' 2020-10-30 09:36:14 +00:00
			`- Preštudovať literatúru na tému "pretrain" a "word embedding"`
Update 'pages/students/2016/maros_harahus/README.md' 2020-11-06 12:25:26 +00:00			`- [Healthcare NER Models Using Language Model Pretraining](http://ceur-ws.org/Vol-2551/paper-04.pdf)`
Update 'pages/students/2016/maros_harahus/README.md' 2020-10-30 09:36:14 +00:00			`- [Design and implementation of an open source Greek POS Tagger and Entity Recognizer using spaCy](https://ieeexplore.ieee.org/abstract/document/8909591)`
			`- https://arxiv.org/abs/1909.00505`
			`- https://arxiv.org/abs/1607.04606`
			`- LSTM, recurrent neural network,`
			`- Urobte si poznámky z viacerých čnánkov, poznačte si zdroj a čo ste sa dozvedeli.`
			`- Vykonať viacero experimentov s pretrénovaním - rôzne modely, rôzne veľkosti adaptačných dát a zostaviť tabuľku`
			`- Opísať pretrénovanie, zhrnúť vplyv pretrénovania na trénovanie v krátkom článku cca 10 strán.`

Update 'pages/students/2016/maros_harahus/README.md' 2020-10-30 09:24:09 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-10-08 13:25:56 +00:00			`Virtuálne stretnutie 8.10.2020`

			`Stav:`
			`- Podarilo sa vykonať pretrénovanie aj trénovanie, prvé výsledky experimentov.`
			`- pretrénovanie funguje na GPU, použila sa verzia spacy 2.2, trénovanie na IDOC`
			`- trénovanie ide lepšie na CPU`
			`- vyskytol sa problém že nevie alokovať viac ako 2GB RAM`
			`- 200 iterácií pretrénovania, 4000 riadkov viet`

			`Úlohy do ďalšieho stretnutia:`
			`- Dať zdrojáky na GIT`
			`- Urobiť porovnanie voči presnosti bez pretrain`
Update 'pages/students/2016/maros_harahus/README.md' 2020-10-08 13:34:19 +00:00			`- Výsledky dajte do tabuľky - aké parametre ste použili pri trénovaní a pretrénovaí?`
			`- experimenty si poznačte do skriptu aby sa dali zopakovať`
			`- Do článku (do súboru README na GIte) presne opíšte nastavenie experimentu - parametre, dáta a spôsob overenia, aspoň rozpracovať.`
			`- Začnite spisovať teoretickú časť článku, aspoň rozpracovať.`
Update 'pages/students/2016/maros_harahus/README.md' 2020-10-08 13:25:56 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-09-25 07:37:01 +00:00			`Stretnutie 25.9.2020`

Update 'pages/students/2016/maros_harahus/README.md' 2020-09-25 08:17:25 +00:00			`Stav:`
zz 2020-10-01 13:46:14 +00:00			`- chyba pri použití príkazu pretrain, ktorá sa objavila s novou verziou Spacy`
Update 'pages/students/2016/maros_harahus/README.md' 2020-09-25 08:17:25 +00:00
			`Úlohy do ďalšieho stretnutia:`
			`- pokračovať so starou verziou Spacy (2.2)`

			`Návrhy na zlepšenie:`
			`- Použiť viac textových dát.`

Update 'pages/students/2016/maros_harahus/README.md' 2020-09-25 07:37:01 +00:00			`Zvážiť publikovanie na: http://conf.uni-obuda.hu/sami2021/index.html`
			`- najprv napísať po slovensky, potom sa to preloží`
			`- opísať experimenty`

Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00			`## Diplomový projekt 2020`
harahus info 2019-12-05 09:12:50 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-03-05 11:34:13 +00:00			`Zdroje:`

			`- [Jazykové zdroje](/topics/resources)`

Update 'pages/students/2016/maros_harahus/README.md' 2020-01-23 10:05:21 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-06-25 07:44:31 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00			`Doplnenie podpory morfologického značkovania slovenského jazyka do nlp frameworku (spacy alebo flair)`
Update 'pages/students/2016/maros_harahus/README.md' 2019-12-12 09:18:35 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00			`- Úlohy na tento semester:`
harahus info 2019-12-05 09:12:50 +00:00			`- Pozrieť jazykové zdroje z https://www.clarin.eu/resource-families/manually-annotated-corpora (MultextEast)`
			`- Oboznámte sa so sadou morfologických značiek Universal Dependencies https://universaldependencies.org/sk/index.html`
			`- Oboznámte sa so sadou SNK https://korpus.sk/morpho.html`
stretko 2020-03-05 12:03:57 +00:00			`- Natrénovať Spacy Model s POS a s pretrénovaním`

Update 'pages/students/2016/maros_harahus/README.md' 2020-06-25 07:44:31 +00:00			`Stretnutie 23.6.2020:`

			`- Výsledok: [Skript na trénovanie Spacy POS](https://git.kemt.fei.tuke.sk/mh496vd/diplomovka/src/branch/master/script.sh)`

zz 2020-06-23 13:35:22 +00:00			`Stretnutie 12.6.2020:`

			`- Pretrénovanie Fasttext a trénovanie POS Spacy modelu - ešte treba vylepšiť presnosť`

			`K zápočtu:`

			`- Finálny okomentovaný skript pre trénovanie POS modelu podľa Slovak Treebank s pretrénovaním Fasttext.`
			`- Ak sa dá tak pri trénovaní využite GPU`
			`- Zistite výslednú presnosť, mala by byť nad 80 percent.`
			`- Porovnajte s presnosťou bez pretrénovania.`




Update 'pages/students/2016/maros_harahus/README.md' 2020-05-15 08:58:37 +00:00			`Virtuálne stretnutie 15.5.2020:`

			`- Spustenie exitujúceho skriptu pre trénovanie POS modelu z repozitára spacy-skmodel, problém nastal pri NER dátach.`
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-15 09:00:42 +00:00			`- Vytvorený [repozitár](https://git.kemt.fei.tuke.sk/mh496vd/diplomovka)`
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-15 08:58:37 +00:00
			`Nové úlohy:`

			`- Podrobne preštudovať a realizovať [spacy pretrain](https://spacy.io/api/cli#pretrain)`
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-19 09:22:31 +00:00			`- [Blog o Spacy pretrain](https://explosion.ai/blog/spacy-v2-1)`
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-15 08:58:37 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-13 13:30:08 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-05-13 13:24:39 +00:00
			`Revízia 9.4.2020:`

			`Report o doterajšej práci:`

			`- naštudovanie Fasttext`
			`- implementácia do Spacy`
			`- úprava modelu v spacy na rozpoznanie jazyka`
			`- snaha o spacy-udpipe pre non-English text`

			`Nové úlohy:`

			`- pridajte zdrojový text a odkaz na "implementáciu".`
			`- natrénujte model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel`
			`- skúste pridať "word-embeddingy" z fasttext do trénovania.`
			`- vyhodnoťte natrénovaný model - zistite presnosť značkovania. Aký vplyv majú embeddingy na presnosť?`
			`- porozmýšľajte ako sa dá presnosť zlepšiť.`


stretko 2020-03-05 12:03:57 +00:00			`Stretnutie 5.3.2020:`

			`Úlohy na ďalšie stretnutie:`

			`- zobrať alebo vytvoriť fasttext model`
			`- pozrieť sa na [spacy pretrain](https://spacy.io/api/cli) - tam sa bude dať využiť fasttext model`
			- vložiť ho do spacy modelu pomocou `spacy pretrain`
			`- pozrieť si http://nl.ijs.si/ME/V4/ morfosyntaktická anotácia MULTEXT`
			`- porozmýšľať ako využiť korpus "MultextEast" - potrebné vytvoriť mapovanie značiek na SNK Tagset`

			`Poznámka:`

			`- Aktivovaná Omega`
			`- Pozrieť sa na https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/slovak-treebank , aktivovaný prístup`
			`- už existuje mapovanie [Universal Dependencie na SNK tagset](https://github.com/explosion/spaCy/blob/master/spacy/lang/sk/tag_map.py)`
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-03-05 11:49:38 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00			`Stretnutie: 20.2.2020:`

			`Úlohy na ďalšie stretnutie:`

			`- Pozrieť https://spacy.io/usage/training#tagger-parser`
			`- Pozrieť si čo je word embedding - word2vec, fasttext, glove`
			`- Nájsť spôsob ako využiť existujúci model word embedding pri trénovaní https://fasttext.cc/docs/en/pretrained-vectors.html`
			`- Ako natrénovať Spacy POS model?`

Update 'pages/students/2016/maros_harahus/README.md' 2020-04-09 09:12:05 +00:00

harahus info 2019-12-05 09:12:50 +00:00
Update 'pages/students/2016/maros_harahus/README.md' 2020-02-20 11:52:50 +00:00

			`## Tímový projekt 2019`

			`Projektové stránky:`

			`- [Spracovanie prirodzeného jazyka](/topics/nlp)`
			`- [Python](/topics/python)`
			`- [Podpora slovenčiny v knižnici Spacy](/topics/spacy)`


			`[Spacy tutoriál](./timovy_projekt)`

			`- Vypracovať tutoriál pre prácu s nástrojom Spacy pre úlohu zisťovania gramatických značiek (part-of-speech). Súčasťou tutoriálu by mali byť aj odkazy na relevantné zdroje (odborné članky, min. 4).`