2021-06-25 07:52:25 +00:00
---
2021-09-24 08:33:05 +00:00
title: Kristián Sopkovič
2021-06-25 07:52:25 +00:00
published: true
taxonomy:
2022-11-24 10:04:24 +00:00
category: [bp2022,dp2024]
2021-06-25 07:52:25 +00:00
tag: [spacy,nlp]
author: Daniel Hladek
---
rok začiatku štúdia: 2019
2022-11-24 10:04:24 +00:00
# Diplomová práca 2024
2022-12-19 13:49:11 +00:00
Neurónové vyhľadávanie na základe sémantickej podobnosti vektorov.
1. Vypracujte prehľad metód neurónovej vektorovej reprezentácie viet alebo odsekov.
1. Pripravte trénovaciu množinu a natrénujte model vektorovej reprezentácie dokumentov.
1. Vyhodnoťte natrénovaný model vo viacerých experimentoch.
1. Identifikujte slabé miesta modelu a navrhnite jeho zlepšenia.
Zadanie sa ešte môže zmeniť.
2022-11-24 10:04:24 +00:00
Súvisiace práce: Michal Stromko
Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí.
Námety na tému:
- Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať multilinguálny model?
- Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu.
2022-12-23 11:55:10 +00:00
[Slovak Semantic Textual Similarity Benchmark ](https://huggingface.co/datasets/crabz/stsb-sk )
2023-06-02 08:28:48 +00:00
na trénovanie Sentence Transformer
2023-09-28 10:53:38 +00:00
## Diplomový projekt 2
Stretnutie 28.9.20023
Stav:
2023-09-28 11:09:33 +00:00
- Vieme pracovať - natrénovať SBERT (Sentence Transformer).
- Je strojovo preložená SNLI databáza pomocou Marian NMT setup.
2023-09-28 10:53:38 +00:00
2023-09-28 11:09:33 +00:00
Nápady:
- Získať dáta-dokumenty z webovej stránky mesta Košice.
- Získať informácie z webovej stránky https://www.esluzbykosice.sk/
- Spracovať dáta o často kladených otázkach, ktoré sme dostali z mesta Košice.
- Spracovať dáta o agende, ktoré sme dostali z mesta Košice.
- Vytvoriť ku týmto dátam "asistenta" pre získavanie informácí.
Úlohy:
- Porozmýšľať ktorú časť problému "pomoci občanom mesta Košice" by sme mohli riešiť.
2023-09-28 10:53:38 +00:00
## Diplomový projekt 1
2023-06-02 08:28:48 +00:00
Stretnutie 2.6.2023
Stav:
- Natrénovaný IR retriever
- Natrénovaný model pre generatívne odpovede na báze Slovak T5 Small.
2023-06-02 08:47:56 +00:00
- Práca na texte
2022-12-23 11:55:10 +00:00
2023-05-23 11:20:53 +00:00
Stretnutie 25.5.
Stav:
- Trénovanie MNLR nebolo v poriadku, lebo boli použité iba kladné príklady.
2023-06-02 08:28:48 +00:00
Úloha:
2023-05-23 11:20:53 +00:00
2023-06-02 08:47:56 +00:00
- Natrénovať model SNLI. Natrénovať iný model STSB.
- Porovnajte ich ako cross-encoder. Vyhodnoťte recall vyhľadávania na databáze sk-quad.
- Porovnajte to so základným modelom mnlr sk quad.
2023-09-28 10:53:38 +00:00
- Skúste oba modely dotrénovať na MNLR skquad a vyhodnotiť.
2023-05-23 11:20:53 +00:00
- pracujte na písomnej časti.
2023-05-05 08:39:08 +00:00
Stretnutie 5.5.2023
Stav:
2023-05-23 11:20:53 +00:00
- Natrénovaný model MNLR SlovakBERT na preloženej databáze Standformd SNLI.st.: tot je asi zle
2023-05-05 08:39:08 +00:00
- Urobnené predbežné vyhodnotenie - analýza strednej hodnoty kosínusovej podobnosti pre triedy entailment, contradiction, neutral.
- Výsledkom MNLR je kosínusové podobnisť.
- Urobené aj softmax trénovanie. Výsledkom softmax je trieda pre 2 zadané vety.
Úlohy:
- Upravte a dajte trénovacie skripty na GIT.
- Vyhodnotiť presnosť klasifikácie softmax pomocou konfúznej matice - p,r,f1
2023-05-23 11:20:53 +00:00
- Dotrénovať SNLI ST na SK Quad a vyhodnotiť na úlohe sémantického vyhľadávania. - recall. To tj e zlá úloha.
2023-05-05 08:49:20 +00:00
- Pracujte na písomnej správe, ktorá poslúži ako základ pre DP a pre článok. Do textu opíšte trénovanie ktoré ste vykonali, postup pri preklade, návrh experimentov a výsledky. Do teoretickej časti píšte o sentence transformeroch.
2023-05-05 08:39:08 +00:00
Zásobník úloh:
- Cieľom je poblikovať kvalitný článok.
- Cieľ 2 je aplikovať model pre úlohu vyhonotenia súladu staevebnej dokumentácie so regulatívou - zákonmi a vyhláškami.
2023-05-05 08:49:20 +00:00
- Využijeme databázu STSB-sk (na hf hube) ako ďalší zdroj dát
- Pripravte porovnávacie experimenty pre anglické datasety.
2023-09-28 11:09:33 +00:00
- Do ďalších experimentov zahrňte multilinguálne modely.
2023-05-05 08:39:08 +00:00
2023-04-24 08:10:36 +00:00
Stretnutie 24.4.2023
Stav:
- Preložené SNLI - všetky 3 časti.
2023-03-17 10:04:00 +00:00
Stretnutie 17.3.2023
Stav:
- Je preložená SNLI databáza, trénovacia časť. Použitý OPUS Helsinki NLP model
Úlohy:
- Preložiť aj testovaciu časť.
- Natrénovať Sentence Transforner (ST) na databáze SNLI, podľa SlovakBERT.
2023-05-05 08:39:08 +00:00
- Dotrénovať SNLI ST na SK Quad a vyhodnotiť na úlohe sémantického vyhľadávania. - recall
2023-03-17 10:04:00 +00:00
- Podobným spôsobom vyhodnotiť Slovakbert-stsb.
2023-03-17 10:06:04 +00:00
- Napíšte o tom čo je to ST, ako funguje. Pripravte prehľad databáz na trénovanie ST.
2023-03-17 10:04:00 +00:00
Zásobník úloh:
2023-05-05 08:39:08 +00:00
- Porovnať s slovakbert-crossencoder na tuke-dtss modelmm.
2022-12-23 11:55:10 +00:00
2023-02-17 08:52:43 +00:00
Stretnutie 17.2.2023
Úlohy
- Zoberte existujúci model SlovakBERT-stsb a použite ho na dotrénovanie bi-encódera na databáze SK quad. Porovnajte presnosť vyhľadávania s bi-encóderom natrénovaným iba na SlovakBERT (dodá vedúci). Použite skripty v repozitári slovak-retrieval.
- Urobte prehľad databáz potrebných na dotrénovanie Sentence Transformer. Vyberte vhodnú databázu na strojový preklad, napr. nejakú NLI databázu. Použite ju na dotrénovanie bi-encódera.
Zásobník úloh:
- Zistite ako využiť slovenský generatívny model pre sémantické vyhľadávnaie. Pripravte experiment a vyhodnotte ho.
- Vyberte databázu pre sémantické vyhľadávanie alebo question answering na vhodnú na vytvorenie slovenského klonu.
2022-12-23 11:55:10 +00:00
2022-11-24 10:04:24 +00:00
Stretnutie 24.11.
Úlohy:
- Porozmýľať ďalej o téme, komuikovať o možnom grante na anotáciu.
- Vyskúšajte [Sentence Transformers framework ](https://github.com/UKPLab/sentence-transformers/tree/master/examples ). Pozrite si príklady, ako trénovať.
- Prečítajte si článok https://arxiv.org/abs/1908.10084.
- Zistite, čo je Natural Language Inference, aké sú dostupné databázy.
- Zistite, čo je Semantic Textual Similarity, aké sú dostupné databázy.
- Pozrite si https://git.kemt.fei.tuke.sk/dano/slovakretrieval/
2021-09-24 08:33:05 +00:00
# Bakalárska práca 2022
2021-06-25 07:52:25 +00:00
Návrh na názov bakalárkej práce:
2021-09-24 08:33:05 +00:00
Model Spacy pre spracovanie prirodzeného jazyka v slovenčine
2021-06-25 07:52:25 +00:00
Ciele bakalárskej práce:
- Zlepšiť presnosť modelu Spacy pre slovenčinu
2022-02-07 13:24:18 +00:00
Zadanie:
1. Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
2. Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
3. Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.
4. Identifikujte slabé miesta a zlepšite presnosť spracovania.
2022-03-25 09:54:42 +00:00
25.3.2022
- Zopakované trénovanie POS aj NER
- Zisitili sme, že keď sa NER trénuje osobitne bez POS tak dáva lepšie výsledky. Prečo?
- konfiguračné súbory sú na githube. malý nepoužíva slovné vektory, stredný používa 200000 ti. slov vektorov.
2022-03-25 10:05:21 +00:00
- uncased multilingual bert vychadza lepsie ako cased.
- v konfiguácii sú fasattext slovné vektory aj multilingualbert uncased. Používajú sa slovné vektory pri klasifikácii???
2022-03-25 09:54:42 +00:00
2022-03-25 10:13:32 +00:00
Úlohy:
- Zosumarizovať výsledky experimentov do písomneč časti
- Finalizovať BP - na ďalšom stretnutí prejdeme spolu draft.
- Pripraviť skripty na natrenovanie modelov na verejnú distribúciu.
2022-03-25 09:54:42 +00:00
2022-03-04 08:55:15 +00:00
4.3. 2022
- Natrénované NER modely Spacy Transformers, výsledky sú na wandb
Úlohy:
2022-03-25 10:13:32 +00:00
- [ ] Pripraviť modely (návody na trénovanie) na verejnú distribúciu.
- [x] Natrénovať menšie modely bez slovných vektorov.
- [-] Pokračovať v písaní.
- [x] Vytvoriť rozhranie pre využitie modelov huggingface ,modelov slovakbert. Využiť spacy-transformers alebo spacy-sentence-transformers.
- [x] Na githube vytvorte fork alebo branch repozitára, dajte mi prístup. tam bude pracovná verzia s novými modelmi.
2022-02-25 07:58:57 +00:00
25.2.2022
- Vyskúšané experimenty s hyperparametrami s pôvodnou architektúrou POS modelu.
- Zmenená architektúra POS na Spacy Transformer (bez BERT predtrénovania, využíva slovné vektory). Dosiahnuté zlepšenie POS z 0.8 na 0,9. Výsledky sú vo forme grafu dostupné na wandb
Úlohy:
- Zdieľať wandb projekt,
- Vyskúšať transformers architektúru na NER model.
- Vyskúšať BERT architektúry - MultilingualBERT, SlovakBERT, LABSE, Slovak GPT
- Pracujte na texte
2021-09-24 08:33:05 +00:00
## Bakalársky projekt 2021
2022-02-18 09:17:33 +00:00
18.2.2022
- Na idoc je problém s timeout pri zostaení pip balíčka, ale funguje trénovanie spacy pos
Úlohy:
2022-02-25 07:58:57 +00:00
- [x] Zatiaľ sa sústrediť na POS model čo funguje.
- [x] Do týždňa opraviť idoc (pre vedúceho).
2022-02-18 09:17:33 +00:00
2022-02-07 13:18:05 +00:00
7.2.2022
- Rozbehaný trénovací skript na vlastnom počítači
- Spustených niekoľko experimentov.
Úlohy:
2022-02-25 07:58:57 +00:00
- [x] Pokračujte v otvorených úlohách.
- [x] Výsledky experimentov dajte do tabuľky do práce.
2022-02-07 13:18:05 +00:00
Zásobník úloh:
2022-02-25 07:58:57 +00:00
- [x] Skúste použiť logovací nástroj https://docs.wandb.ai/guides/integrations/spacy
- [x] Skúste rozbehať trénovacie skripty na školskom servri. Problémy vytriešime na konzultácii.
2022-02-07 13:18:05 +00:00
2021-11-26 11:55:09 +00:00
26.11. 2021
- Absolvovaný kurz Explosion https://course.spacy.io/en/
- Mierne zlepšený text práce.
Úlohy:
2022-02-25 07:58:57 +00:00
- [x] Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta. Celý proces by mal byť opakovateľný,
- [x] Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3
- [ ] Skúste pridať MultilingualBert do trénovania.
- [ ] Pokračujte v práci na textovej časti.
- [x] Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári.
2021-11-26 11:55:09 +00:00
2021-10-21 07:01:48 +00:00
Zápis 21.10.
Vyskúšať toto:
- [MultilingualBert ](https://github.com/google-research/bert/blob/master/multilingual.md ). Dá sa adaptovať na Slovak Treebank.
- [Spacy Transformers ](https://spacy.io/universe/project/spacy-transformers )
2021-10-15 08:18:32 +00:00
Stretnutie 15.10.
Stav:
- Rozpracovaná kapitola o Spacy
- Pokusné trénovanie HuggingFace v Pytorch
Úlohy:
- Pokračovať v otvorených úlohách.
Zásobník úloh:
- Aplikovať model BERT do Spacy Pipeline.
2021-10-01 07:31:56 +00:00
Stretnutie 1.10
Stav:
- Vypracovaných asi 8 strán osnovy
- Preštudované Transformery a Spacy
- Vyskúšané trénovanie Pytorch
Úlohy:
- Pripravte si prostredie Anaconda a v ňom spustite trénovanie.
- Pokračovať v otvorených úlohách.
2021-09-24 08:33:05 +00:00
Stretnutie 24.9.2021
Stav:
- Naštudovaná knižnica Spacy - pozreté tutoriály
- Vytvorený prístup na idoc
Úlohy:
- Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc.
- Skúste napísať osnovu BP práce.
- Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli.
- Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok.
- Zistite ako by sa dal zlepšiť proces trénovania.
2021-10-15 08:18:32 +00:00
2021-06-25 07:52:25 +00:00
Stretnutie 25.6.2021
- Vytvorený prístup do repozitára spacy-skmodel na GIThube
Úlohy:
- Skúste spustiť trénovací skript a natrénovať slovenský spacy model
- Pozrite si bakalársku prácu [Martin Wencel ](/students/2018/martin_wencel )