zpwiki/pages/students/2019/kristian_sopkovic/README.md

---
title: Kristián Sopkovič
published: true
taxonomy:
    category: [bp2022,dp2024]
    tag: [spacy,nlp]
    author: Daniel Hladek
---

rok začiatku štúdia: 2019


# Diplomová práca 2024

Neurónové vyhľadávanie na základe sémantickej podobnosti vektorov.

1. Vypracujte prehľad metód neurónovej vektorovej reprezentácie viet alebo odsekov.
1. Pripravte trénovaciu množinu a natrénujte model vektorovej reprezentácie dokumentov.
1. Vyhodnoťte natrénovaný model vo viacerých experimentoch.
1. Identifikujte slabé miesta modelu a navrhnite jeho zlepšenia.

Zadanie sa ešte môže zmeniť.


Súvisiace práce: Michal Stromko

Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí.

Námety na tému:

- Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať *multilinguálny model*?
- Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu.
- Vytvorte kognitívne vyhľadávanie pre mesto Košice 

[Slovak Semantic Textual Similarity Benchmark](https://huggingface.co/datasets/crabz/stsb-sk) 
na trénovanie Sentence Transformer


## Diplomový projekt 2

Stretnutie 3.11.2023

Stav:

- Sú spracované ďalšie dáta o službách z Magistrátu Košíc.
- Dotrénovanie multilinguálnych modelov na NLI databázach. MNLR loss.  Model E5 a varianty. Batch size by mala byť najmenej 256. LR na finetuning je E-5. Preto je možné pracovať iba so SMALL model. Max seq. len bol orezaný na 256 z 512 aby to išlo na 1x24 GB Titan. 
- SIMSCE prístup na trénovanie pomocou MNLR, je SOTA. Koher reranker je tiež SOTA, ale je komerčný.
- Pokračujeme v minulých úlohách.

Úlohy:

- Chceme dotrénovať E5 model na anglickom, nemeckom a slovenskom SNLI pre úlohu kros linguálneho IR. Vyhodnocovať budeme na SQUADE anglickom, nemeckom a slovenskom jazyku. 


Stretnutie 13.10.2023

Stav:

- Spracované dáta z mesta Košice - 110 najčastejších otázok a odpovedí.
- Nasadená 13B ChatLLama na Titan, 4 bit kvantizácia.


Úlohy:

- Chceme vytvoriť model pre cross-lingual information retrieval. Model bude vedieť vytvoriť "vyhľadávací embedding" pre texty a otázky vo viacerých jazykoch.
- Na základe dostupných dát natrénujte takýto model. K dispozícii máme preloženú Slovak NLI, Anglickú NLI. Určite existujú aj iné jazyky. Zoberte viacero NLI databáz a dotrénujte z nich multilinguálny model. Aký model je najlepší ako "základ"? Možno multilinguálne SBERT: E5, mpnet, miniLM.
- Model vyhodndotte na dostupných databázach.
- Prečítajte si viacero nových článkov na tému "mutlilingual alebo crosslingual" "information retrieval" "document embeddings". Urobte si poznámky do DP.

Zásobník úloh:

- Košické dáta je možné využiť pri vyhdonotení.
- Možno dáta na vyhodnotenie slovenského IR vytvorí aj M. Stromko.
- Pripraviť API na ChatLLAma.

Stretnutie 28.9.20023

Stav:

- Vieme pracovať - natrénovať SBERT (Sentence Transformer).
- Je strojovo preložená SNLI databáza pomocou Marian NMT setup.

Nápady:

- Získať dáta-dokumenty z webovej stránky mesta Košice.
- Získať informácie z webovej stránky https://www.esluzbykosice.sk/
- Spracovať dáta o často kladených otázkach, ktoré sme dostali z mesta Košice.
- Spracovať dáta o agende, ktoré sme dostali z mesta Košice.
- Vytvoriť ku týmto dátam "asistenta" pre získavanie informácí.

Úlohy:

- [-] Porozmýšľať ktorú časť problému "pomoci občanom mesta Košice" by sme mohli riešiť.
- [-] Spracujte dodané dáta od mesta Košice (vedúci pripraví a pošle).
- [ ] Dáta zaindexujte a pripravte jednoduché vyhľadávanie.
- [ ] Pokračujte v písomnej teoretickej príprave na tému "Sentence Transformers".

Zásobník úloh:

- Pripravte scraper na dáta od mesta Košice.


## Diplomový projekt 1

Stretnutie 2.6.2023

Stav:

- Natrénovaný IR retriever
- Natrénovaný model pre generatívne odpovede na báze Slovak T5 Small.
- Práca na texte

Stretnutie 25.5.

Stav:

- Trénovanie MNLR nebolo v poriadku, lebo boli použité iba kladné príklady.

Úloha:

- Natrénovať model SNLI. Natrénovať iný model STSB. 
- Porovnajte ich ako cross-encoder. Vyhodnoťte recall vyhľadávania na databáze sk-quad.
- Porovnajte to so základným modelom mnlr sk quad.
- Skúste oba modely dotrénovať na MNLR skquad a vyhodnotiť. 
- pracujte na písomnej časti.


Stretnutie 5.5.2023

Stav:

- Natrénovaný model MNLR SlovakBERT na preloženej databáze Standformd SNLI.st.: tot je asi zle
- Urobnené predbežné vyhodnotenie - analýza strednej hodnoty kosínusovej podobnosti pre triedy entailment, contradiction, neutral.
- Výsledkom MNLR je kosínusové podobnisť.
- Urobené aj softmax trénovanie. Výsledkom softmax je trieda pre 2 zadané vety.

Úlohy:

- Upravte a dajte trénovacie skripty na GIT.
- Vyhodnotiť presnosť klasifikácie softmax pomocou konfúznej matice - p,r,f1
- Dotrénovať SNLI ST na SK Quad a vyhodnotiť na úlohe sémantického vyhľadávania. - recall. To tj e zlá úloha.
- Pracujte na písomnej správe, ktorá poslúži ako základ pre DP a pre článok. Do textu opíšte trénovanie ktoré ste vykonali, postup pri preklade, návrh experimentov a výsledky. Do teoretickej časti píšte o sentence transformeroch. 

Zásobník úloh:

- Cieľom je poblikovať kvalitný článok.
- Cieľ 2 je aplikovať model pre úlohu vyhonotenia súladu staevebnej dokumentácie so regulatívou - zákonmi a vyhláškami.
- Využijeme databázu STSB-sk (na hf hube) ako ďalší zdroj dát
- Pripravte porovnávacie experimenty pre anglické datasety.
- Do ďalších experimentov zahrňte multilinguálne modely.

Stretnutie 24.4.2023

Stav:

- Preložené SNLI - všetky 3 časti.


Stretnutie 17.3.2023

Stav:

- Je preložená SNLI databáza, trénovacia časť. Použitý OPUS  Helsinki NLP  model

Úlohy:

- Preložiť aj testovaciu časť.
- Natrénovať Sentence Transforner (ST) na databáze SNLI, podľa SlovakBERT.
- Dotrénovať SNLI ST na SK Quad a vyhodnotiť na úlohe sémantického vyhľadávania. - recall
- Podobným spôsobom vyhodnotiť Slovakbert-stsb.
- Napíšte o tom čo je to ST, ako funguje. Pripravte prehľad databáz na trénovanie ST.

Zásobník úloh:

-  Porovnať s slovakbert-crossencoder na tuke-dtss modelmm.

Stretnutie 17.2.2023

Úlohy

- Zoberte existujúci model SlovakBERT-stsb a použite ho na dotrénovanie bi-encódera na databáze SK quad. Porovnajte presnosť vyhľadávania s bi-encóderom natrénovaným iba na SlovakBERT (dodá vedúci). Použite skripty v repozitári slovak-retrieval.
- Urobte prehľad databáz potrebných na dotrénovanie Sentence Transformer. Vyberte vhodnú databázu na strojový preklad, napr. nejakú NLI databázu. Použite ju na dotrénovanie bi-encódera. 

Zásobník úloh:

- Zistite ako využiť slovenský generatívny model pre sémantické vyhľadávnaie. Pripravte experiment a vyhodnotte ho.
- Vyberte databázu pre sémantické vyhľadávanie alebo question answering na vhodnú na vytvorenie slovenského klonu. 


Stretnutie 24.11.

Úlohy:

- Porozmýľať ďalej o téme, komuikovať o možnom grante na anotáciu.
- Vyskúšajte [Sentence Transformers framework](https://github.com/UKPLab/sentence-transformers/tree/master/examples). Pozrite si príklady, ako trénovať.
- Prečítajte si článok https://arxiv.org/abs/1908.10084.
- Zistite, čo je Natural Language Inference, aké sú dostupné databázy.
- Zistite, čo je Semantic Textual Similarity, aké sú dostupné databázy.
- Pozrite si https://git.kemt.fei.tuke.sk/dano/slovakretrieval/

# Bakalárska práca 2022

Návrh na názov bakalárkej práce:

Model Spacy pre spracovanie prirodzeného jazyka v slovenčine

Ciele bakalárskej práce:

- Zlepšiť presnosť modelu Spacy pre slovenčinu


Zadanie:

1. Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
2. Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
3. Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.
4. Identifikujte slabé miesta a zlepšite presnosť spracovania.

25.3.2022

- Zopakované trénovanie POS aj NER
- Zisitili sme, že keď sa NER trénuje osobitne bez POS tak dáva lepšie výsledky. Prečo?
- konfiguračné súbory sú na githube. malý nepoužíva slovné vektory, stredný používa 200000 ti. slov vektorov. 
- uncased multilingual bert vychadza lepsie ako cased.
- v konfiguácii sú fasattext slovné vektory aj multilingualbert uncased. Používajú sa slovné vektory pri klasifikácii???

Úlohy:

- Zosumarizovať výsledky experimentov do písomneč časti
- Finalizovať BP - na ďalšom stretnutí prejdeme spolu draft.
- Pripraviť skripty na natrenovanie modelov na verejnú distribúciu.


4.3. 2022

- Natrénované NER modely Spacy Transformers, výsledky sú na wandb

Úlohy:

- [ ] Pripraviť modely (návody na trénovanie) na verejnú distribúciu.
- [x] Natrénovať menšie modely bez slovných vektorov.
- [-] Pokračovať v písaní.
- [x] Vytvoriť rozhranie pre využitie modelov  huggingface ,modelov slovakbert.  Využiť  spacy-transformers alebo spacy-sentence-transformers.
- [x] Na githube vytvorte fork alebo branch repozitára, dajte mi prístup. tam bude pracovná verzia s novými modelmi. 

25.2.2022

- Vyskúšané experimenty s hyperparametrami s pôvodnou architektúrou POS modelu.
- Zmenená architektúra POS na Spacy Transformer (bez BERT predtrénovania, využíva slovné vektory). Dosiahnuté zlepšenie POS z 0.8 na 0,9. Výsledky sú vo forme grafu dostupné na wandb

Úlohy:

- Zdieľať wandb projekt,
- Vyskúšať transformers architektúru na NER model. 
- Vyskúšať BERT architektúry - MultilingualBERT, SlovakBERT, LABSE, Slovak GPT
- Pracujte na texte


## Bakalársky projekt 2021


18.2.2022

- Na idoc je problém s timeout pri zostaení pip balíčka, ale funguje trénovanie spacy pos

Úlohy:

- [x] Zatiaľ sa sústrediť na POS model čo funguje.
- [x] Do týždňa opraviť idoc (pre vedúceho).


7.2.2022

- Rozbehaný trénovací skript na vlastnom počítači
- Spustených niekoľko experimentov.

Úlohy:

- [x] Pokračujte v otvorených úlohách.
- [x] Výsledky experimentov dajte do tabuľky do práce.


Zásobník úloh:

- [x] Skúste použiť logovací nástroj https://docs.wandb.ai/guides/integrations/spacy
- [x] Skúste rozbehať trénovacie skripty na školskom servri. Problémy vytriešime na konzultácii.

26.11. 2021

- Absolvovaný kurz Explosion  https://course.spacy.io/en/
- Mierne zlepšený text práce.

Úlohy:

- [x] Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta.  Celý proces by mal byť opakovateľný,
- [x] Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3
- [ ] Skúste pridať MultilingualBert do trénovania.
- [ ] Pokračujte v práci na textovej časti.
- [x] Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári.


Zápis 21.10.

Vyskúšať toto:

- [MultilingualBert](https://github.com/google-research/bert/blob/master/multilingual.md). Dá sa adaptovať na Slovak Treebank.
- [Spacy Transformers](https://spacy.io/universe/project/spacy-transformers)

Stretnutie 15.10.

Stav:

- Rozpracovaná kapitola o Spacy
- Pokusné trénovanie HuggingFace v Pytorch

Úlohy:

- Pokračovať v otvorených úlohách.

Zásobník úloh:

- Aplikovať model BERT do Spacy Pipeline.

Stretnutie 1.10

Stav:

- Vypracovaných asi 8 strán osnovy
- Preštudované Transformery a Spacy
- Vyskúšané trénovanie Pytorch

Úlohy:

- Pripravte si prostredie Anaconda a v ňom spustite trénovanie.
- Pokračovať v otvorených úlohách.

Stretnutie 24.9.2021

Stav:

- Naštudovaná knižnica Spacy - pozreté tutoriály
- Vytvorený prístup na idoc

Úlohy:

- Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc.
- Skúste napísať osnovu BP práce.
- Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli.
- Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok.
- Zistite ako by sa dal zlepšiť proces trénovania.


Stretnutie 25.6.2021

- Vytvorený prístup do repozitára spacy-skmodel na GIThube

Úlohy:

- Skúste spustiť trénovací skript a natrénovať slovenský spacy model
- Pozrite si bakalársku prácu [Martin Wencel](/students/2018/martin_wencel)
zz 2021-06-25 07:52:25 +00:00			`---`
zz 2021-09-24 08:33:05 +00:00			`title: Kristián Sopkovič`
zz 2021-06-25 07:52:25 +00:00			`published: true`
			`taxonomy:`
zz 2022-11-24 10:04:24 +00:00			`category: [bp2022,dp2024]`
zz 2021-06-25 07:52:25 +00:00			`tag: [spacy,nlp]`
			`author: Daniel Hladek`
			`---`

			`rok začiatku štúdia: 2019`

zz 2022-11-24 10:04:24 +00:00
			`# Diplomová práca 2024`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-12-19 13:49:11 +00:00			`Neurónové vyhľadávanie na základe sémantickej podobnosti vektorov.`

			`1. Vypracujte prehľad metód neurónovej vektorovej reprezentácie viet alebo odsekov.`
			`1. Pripravte trénovaciu množinu a natrénujte model vektorovej reprezentácie dokumentov.`
			`1. Vyhodnoťte natrénovaný model vo viacerých experimentoch.`
			`1. Identifikujte slabé miesta modelu a navrhnite jeho zlepšenia.`

			`Zadanie sa ešte môže zmeniť.`


zz 2022-11-24 10:04:24 +00:00			`Súvisiace práce: Michal Stromko`

			`Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí.`

			`Námety na tému:`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-10-13 08:16:33 +00:00			`- Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať multilinguálny model?`
zz 2022-11-24 10:04:24 +00:00			`- Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-09-28 11:19:57 +00:00			`- Vytvorte kognitívne vyhľadávanie pre mesto Košice`
zz 2022-11-24 10:04:24 +00:00
Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-12-23 11:55:10 +00:00			`[Slovak Semantic Textual Similarity Benchmark](https://huggingface.co/datasets/crabz/stsb-sk)`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-06-02 08:28:48 +00:00			`na trénovanie Sentence Transformer`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-09-28 10:53:38 +00:00
			`## Diplomový projekt 2`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-11-03 08:19:42 +00:00			`Stretnutie 3.11.2023`

			`Stav:`

			`- Sú spracované ďalšie dáta o službách z Magistrátu Košíc.`
			`- Dotrénovanie multilinguálnych modelov na NLI databázach. MNLR loss. Model E5 a varianty. Batch size by mala byť najmenej 256. LR na finetuning je E-5. Preto je možné pracovať iba so SMALL model. Max seq. len bol orezaný na 256 z 512 aby to išlo na 1x24 GB Titan.`
			`- SIMSCE prístup na trénovanie pomocou MNLR, je SOTA. Koher reranker je tiež SOTA, ale je komerčný.`
			`- Pokračujeme v minulých úlohách.`

			`Úlohy:`

			`- Chceme dotrénovať E5 model na anglickom, nemeckom a slovenskom SNLI pre úlohu kros linguálneho IR. Vyhodnocovať budeme na SQUADE anglickom, nemeckom a slovenskom jazyku.`



Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-10-13 08:02:27 +00:00			`Stretnutie 13.10.2023`

			`Stav:`

			`- Spracované dáta z mesta Košice - 110 najčastejších otázok a odpovedí.`
			`- Nasadená 13B ChatLLama na Titan, 4 bit kvantizácia.`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-10-13 08:16:33 +00:00
			`Úlohy:`

			`- Chceme vytvoriť model pre cross-lingual information retrieval. Model bude vedieť vytvoriť "vyhľadávací embedding" pre texty a otázky vo viacerých jazykoch.`
			`- Na základe dostupných dát natrénujte takýto model. K dispozícii máme preloženú Slovak NLI, Anglickú NLI. Určite existujú aj iné jazyky. Zoberte viacero NLI databáz a dotrénujte z nich multilinguálny model. Aký model je najlepší ako "základ"? Možno multilinguálne SBERT: E5, mpnet, miniLM.`
			`- Model vyhodndotte na dostupných databázach.`
			`- Prečítajte si viacero nových článkov na tému "mutlilingual alebo crosslingual" "information retrieval" "document embeddings". Urobte si poznámky do DP.`

			`Zásobník úloh:`

			`- Košické dáta je možné využiť pri vyhdonotení.`
			`- Možno dáta na vyhodnotenie slovenského IR vytvorí aj M. Stromko.`
			`- Pripraviť API na ChatLLAma.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-10-13 08:02:27 +00:00
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-09-28 10:53:38 +00:00			`Stretnutie 28.9.20023`

			`Stav:`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-09-28 11:09:33 +00:00			`- Vieme pracovať - natrénovať SBERT (Sentence Transformer).`
			`- Je strojovo preložená SNLI databáza pomocou Marian NMT setup.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-09-28 10:53:38 +00:00
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-09-28 11:09:33 +00:00			`Nápady:`

			`- Získať dáta-dokumenty z webovej stránky mesta Košice.`
			`- Získať informácie z webovej stránky https://www.esluzbykosice.sk/`
			`- Spracovať dáta o často kladených otázkach, ktoré sme dostali z mesta Košice.`
			`- Spracovať dáta o agende, ktoré sme dostali z mesta Košice.`
			`- Vytvoriť ku týmto dátam "asistenta" pre získavanie informácí.`

			`Úlohy:`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-10-13 08:02:27 +00:00			`- [-] Porozmýšľať ktorú časť problému "pomoci občanom mesta Košice" by sme mohli riešiť.`
			`- [-] Spracujte dodané dáta od mesta Košice (vedúci pripraví a pošle).`
			`- [ ] Dáta zaindexujte a pripravte jednoduché vyhľadávanie.`
			`- [ ] Pokračujte v písomnej teoretickej príprave na tému "Sentence Transformers".`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-09-28 11:19:57 +00:00
			`Zásobník úloh:`

			`- Pripravte scraper na dáta od mesta Košice.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-09-28 10:53:38 +00:00


			`## Diplomový projekt 1`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-06-02 08:28:48 +00:00			`Stretnutie 2.6.2023`

			`Stav:`

			`- Natrénovaný IR retriever`
			`- Natrénovaný model pre generatívne odpovede na báze Slovak T5 Small.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-06-02 08:47:56 +00:00			`- Práca na texte`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-12-23 11:55:10 +00:00
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-23 11:20:53 +00:00			`Stretnutie 25.5.`

			`Stav:`

			`- Trénovanie MNLR nebolo v poriadku, lebo boli použité iba kladné príklady.`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-06-02 08:28:48 +00:00			`Úloha:`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-23 11:20:53 +00:00
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-06-02 08:47:56 +00:00			`- Natrénovať model SNLI. Natrénovať iný model STSB.`
			`- Porovnajte ich ako cross-encoder. Vyhodnoťte recall vyhľadávania na databáze sk-quad.`
			`- Porovnajte to so základným modelom mnlr sk quad.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-09-28 10:53:38 +00:00			`- Skúste oba modely dotrénovať na MNLR skquad a vyhodnotiť.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-23 11:20:53 +00:00			`- pracujte na písomnej časti.`


Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-05 08:39:08 +00:00			`Stretnutie 5.5.2023`

			`Stav:`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-23 11:20:53 +00:00			`- Natrénovaný model MNLR SlovakBERT na preloženej databáze Standformd SNLI.st.: tot je asi zle`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-05 08:39:08 +00:00			`- Urobnené predbežné vyhodnotenie - analýza strednej hodnoty kosínusovej podobnosti pre triedy entailment, contradiction, neutral.`
			`- Výsledkom MNLR je kosínusové podobnisť.`
			`- Urobené aj softmax trénovanie. Výsledkom softmax je trieda pre 2 zadané vety.`

			`Úlohy:`

			`- Upravte a dajte trénovacie skripty na GIT.`
			`- Vyhodnotiť presnosť klasifikácie softmax pomocou konfúznej matice - p,r,f1`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-23 11:20:53 +00:00			`- Dotrénovať SNLI ST na SK Quad a vyhodnotiť na úlohe sémantického vyhľadávania. - recall. To tj e zlá úloha.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-05 08:49:20 +00:00			`- Pracujte na písomnej správe, ktorá poslúži ako základ pre DP a pre článok. Do textu opíšte trénovanie ktoré ste vykonali, postup pri preklade, návrh experimentov a výsledky. Do teoretickej časti píšte o sentence transformeroch.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-05 08:39:08 +00:00
			`Zásobník úloh:`

			`- Cieľom je poblikovať kvalitný článok.`
			`- Cieľ 2 je aplikovať model pre úlohu vyhonotenia súladu staevebnej dokumentácie so regulatívou - zákonmi a vyhláškami.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-05 08:49:20 +00:00			`- Využijeme databázu STSB-sk (na hf hube) ako ďalší zdroj dát`
			`- Pripravte porovnávacie experimenty pre anglické datasety.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-09-28 11:09:33 +00:00			`- Do ďalších experimentov zahrňte multilinguálne modely.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-05 08:39:08 +00:00
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-04-24 08:10:36 +00:00			`Stretnutie 24.4.2023`

			`Stav:`

			`- Preložené SNLI - všetky 3 časti.`


Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-03-17 10:04:00 +00:00			`Stretnutie 17.3.2023`

			`Stav:`

			`- Je preložená SNLI databáza, trénovacia časť. Použitý OPUS Helsinki NLP model`

			`Úlohy:`

			`- Preložiť aj testovaciu časť.`
			`- Natrénovať Sentence Transforner (ST) na databáze SNLI, podľa SlovakBERT.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-05 08:39:08 +00:00			`- Dotrénovať SNLI ST na SK Quad a vyhodnotiť na úlohe sémantického vyhľadávania. - recall`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-03-17 10:04:00 +00:00			`- Podobným spôsobom vyhodnotiť Slovakbert-stsb.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-03-17 10:06:04 +00:00			`- Napíšte o tom čo je to ST, ako funguje. Pripravte prehľad databáz na trénovanie ST.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-03-17 10:04:00 +00:00
			`Zásobník úloh:`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-05-05 08:39:08 +00:00			`- Porovnať s slovakbert-crossencoder na tuke-dtss modelmm.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-12-23 11:55:10 +00:00
Update 'pages/students/2019/kristian_sopkovic/README.md' 2023-02-17 08:52:43 +00:00			`Stretnutie 17.2.2023`

			`Úlohy`

			`- Zoberte existujúci model SlovakBERT-stsb a použite ho na dotrénovanie bi-encódera na databáze SK quad. Porovnajte presnosť vyhľadávania s bi-encóderom natrénovaným iba na SlovakBERT (dodá vedúci). Použite skripty v repozitári slovak-retrieval.`
			`- Urobte prehľad databáz potrebných na dotrénovanie Sentence Transformer. Vyberte vhodnú databázu na strojový preklad, napr. nejakú NLI databázu. Použite ju na dotrénovanie bi-encódera.`

			`Zásobník úloh:`

			`- Zistite ako využiť slovenský generatívny model pre sémantické vyhľadávnaie. Pripravte experiment a vyhodnotte ho.`
			`- Vyberte databázu pre sémantické vyhľadávanie alebo question answering na vhodnú na vytvorenie slovenského klonu.`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-12-23 11:55:10 +00:00
zz 2022-11-24 10:04:24 +00:00			`Stretnutie 24.11.`

			`Úlohy:`

			`- Porozmýľať ďalej o téme, komuikovať o možnom grante na anotáciu.`
			`- Vyskúšajte [Sentence Transformers framework](https://github.com/UKPLab/sentence-transformers/tree/master/examples). Pozrite si príklady, ako trénovať.`
			`- Prečítajte si článok https://arxiv.org/abs/1908.10084.`
			`- Zistite, čo je Natural Language Inference, aké sú dostupné databázy.`
			`- Zistite, čo je Semantic Textual Similarity, aké sú dostupné databázy.`
			`- Pozrite si https://git.kemt.fei.tuke.sk/dano/slovakretrieval/`

zz 2021-09-24 08:33:05 +00:00			`# Bakalárska práca 2022`
zz 2021-06-25 07:52:25 +00:00
			`Návrh na názov bakalárkej práce:`

zz 2021-09-24 08:33:05 +00:00			`Model Spacy pre spracovanie prirodzeného jazyka v slovenčine`
zz 2021-06-25 07:52:25 +00:00
			`Ciele bakalárskej práce:`

			`- Zlepšiť presnosť modelu Spacy pre slovenčinu`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-02-07 13:24:18 +00:00
			`Zadanie:`

			`1. Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.`
			`2. Natrénujte model pre spracovanie slovenského prirodzeného jazyka.`
			`3. Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.`
			`4. Identifikujte slabé miesta a zlepšite presnosť spracovania.`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-03-25 09:54:42 +00:00			`25.3.2022`

			`- Zopakované trénovanie POS aj NER`
			`- Zisitili sme, že keď sa NER trénuje osobitne bez POS tak dáva lepšie výsledky. Prečo?`
			`- konfiguračné súbory sú na githube. malý nepoužíva slovné vektory, stredný používa 200000 ti. slov vektorov.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-03-25 10:05:21 +00:00			`- uncased multilingual bert vychadza lepsie ako cased.`
			`- v konfiguácii sú fasattext slovné vektory aj multilingualbert uncased. Používajú sa slovné vektory pri klasifikácii???`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-03-25 09:54:42 +00:00
Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-03-25 10:13:32 +00:00			`Úlohy:`

			`- Zosumarizovať výsledky experimentov do písomneč časti`
			`- Finalizovať BP - na ďalšom stretnutí prejdeme spolu draft.`
			`- Pripraviť skripty na natrenovanie modelov na verejnú distribúciu.`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-03-25 09:54:42 +00:00
Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-03-04 08:55:15 +00:00			`4.3. 2022`

			`- Natrénované NER modely Spacy Transformers, výsledky sú na wandb`

			`Úlohy:`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-03-25 10:13:32 +00:00			`- [ ] Pripraviť modely (návody na trénovanie) na verejnú distribúciu.`
			`- [x] Natrénovať menšie modely bez slovných vektorov.`
			`- [-] Pokračovať v písaní.`
			`- [x] Vytvoriť rozhranie pre využitie modelov huggingface ,modelov slovakbert. Využiť spacy-transformers alebo spacy-sentence-transformers.`
			`- [x] Na githube vytvorte fork alebo branch repozitára, dajte mi prístup. tam bude pracovná verzia s novými modelmi.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-02-25 07:58:57 +00:00
			`25.2.2022`

			`- Vyskúšané experimenty s hyperparametrami s pôvodnou architektúrou POS modelu.`
			`- Zmenená architektúra POS na Spacy Transformer (bez BERT predtrénovania, využíva slovné vektory). Dosiahnuté zlepšenie POS z 0.8 na 0,9. Výsledky sú vo forme grafu dostupné na wandb`

			`Úlohy:`

			`- Zdieľať wandb projekt,`
			`- Vyskúšať transformers architektúru na NER model.`
			`- Vyskúšať BERT architektúry - MultilingualBERT, SlovakBERT, LABSE, Slovak GPT`
			`- Pracujte na texte`


zz 2021-09-24 08:33:05 +00:00			`## Bakalársky projekt 2021`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-02-18 09:17:33 +00:00
			`18.2.2022`

			`- Na idoc je problém s timeout pri zostaení pip balíčka, ale funguje trénovanie spacy pos`

			`Úlohy:`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-02-25 07:58:57 +00:00			`- [x] Zatiaľ sa sústrediť na POS model čo funguje.`
			`- [x] Do týždňa opraviť idoc (pre vedúceho).`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-02-18 09:17:33 +00:00

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-02-07 13:18:05 +00:00			`7.2.2022`

			`- Rozbehaný trénovací skript na vlastnom počítači`
			`- Spustených niekoľko experimentov.`

			`Úlohy:`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-02-25 07:58:57 +00:00			`- [x] Pokračujte v otvorených úlohách.`
			`- [x] Výsledky experimentov dajte do tabuľky do práce.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-02-07 13:18:05 +00:00

			`Zásobník úloh:`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-02-25 07:58:57 +00:00			`- [x] Skúste použiť logovací nástroj https://docs.wandb.ai/guides/integrations/spacy`
			`- [x] Skúste rozbehať trénovacie skripty na školskom servri. Problémy vytriešime na konzultácii.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-02-07 13:18:05 +00:00
Update 'pages/students/2019/kristian_sopkovic/README.md' 2021-11-26 11:55:09 +00:00			`26.11. 2021`

			`- Absolvovaný kurz Explosion https://course.spacy.io/en/`
			`- Mierne zlepšený text práce.`

			`Úlohy:`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2022-02-25 07:58:57 +00:00			`- [x] Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta. Celý proces by mal byť opakovateľný,`
			`- [x] Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3`
			`- [ ] Skúste pridať MultilingualBert do trénovania.`
			`- [ ] Pokračujte v práci na textovej časti.`
			`- [x] Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári.`
Update 'pages/students/2019/kristian_sopkovic/README.md' 2021-11-26 11:55:09 +00:00

Update 'pages/students/2019/kristian_sopkovic/README.md' 2021-10-21 07:01:48 +00:00			`Zápis 21.10.`

			`Vyskúšať toto:`

			`- [MultilingualBert](https://github.com/google-research/bert/blob/master/multilingual.md). Dá sa adaptovať na Slovak Treebank.`
			`- [Spacy Transformers](https://spacy.io/universe/project/spacy-transformers)`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2021-10-15 08:18:32 +00:00			`Stretnutie 15.10.`

			`Stav:`

			`- Rozpracovaná kapitola o Spacy`
			`- Pokusné trénovanie HuggingFace v Pytorch`

			`Úlohy:`

			`- Pokračovať v otvorených úlohách.`

			`Zásobník úloh:`

			`- Aplikovať model BERT do Spacy Pipeline.`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2021-10-01 07:31:56 +00:00			`Stretnutie 1.10`

			`Stav:`

			`- Vypracovaných asi 8 strán osnovy`
			`- Preštudované Transformery a Spacy`
			`- Vyskúšané trénovanie Pytorch`

			`Úlohy:`

			`- Pripravte si prostredie Anaconda a v ňom spustite trénovanie.`
			`- Pokračovať v otvorených úlohách.`

zz 2021-09-24 08:33:05 +00:00			`Stretnutie 24.9.2021`

			`Stav:`

			`- Naštudovaná knižnica Spacy - pozreté tutoriály`
			`- Vytvorený prístup na idoc`

			`Úlohy:`

			`- Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc.`
			`- Skúste napísať osnovu BP práce.`
			`- Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli.`
			`- Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok.`
			`- Zistite ako by sa dal zlepšiť proces trénovania.`

Update 'pages/students/2019/kristian_sopkovic/README.md' 2021-10-15 08:18:32 +00:00
zz 2021-06-25 07:52:25 +00:00			`Stretnutie 25.6.2021`

			`- Vytvorený prístup do repozitára spacy-skmodel na GIThube`

			`Úlohy:`

			`- Skúste spustiť trénovací skript a natrénovať slovenský spacy model`
			`- Pozrite si bakalársku prácu [Martin Wencel](/students/2018/martin_wencel)`