forked from KEMT/zpwiki
225 lines
7.3 KiB
Markdown
225 lines
7.3 KiB
Markdown
---
|
|
title: Kristián Sopkovič
|
|
published: true
|
|
taxonomy:
|
|
category: [bp2022,dp2024]
|
|
tag: [spacy,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
rok začiatku štúdia: 2019
|
|
|
|
|
|
# Diplomová práca 2024
|
|
|
|
Neurónové vyhľadávanie na základe sémantickej podobnosti vektorov.
|
|
|
|
1. Vypracujte prehľad metód neurónovej vektorovej reprezentácie viet alebo odsekov.
|
|
1. Pripravte trénovaciu množinu a natrénujte model vektorovej reprezentácie dokumentov.
|
|
1. Vyhodnoťte natrénovaný model vo viacerých experimentoch.
|
|
1. Identifikujte slabé miesta modelu a navrhnite jeho zlepšenia.
|
|
|
|
Zadanie sa ešte môže zmeniť.
|
|
|
|
|
|
Súvisiace práce: Michal Stromko
|
|
|
|
Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí.
|
|
|
|
Námety na tému:
|
|
|
|
- Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať multilinguálny model?
|
|
- Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu.
|
|
|
|
|
|
[Slovak Semantic Textual Similarity Benchmark](https://huggingface.co/datasets/crabz/stsb-sk)
|
|
na trénovanie Sentence Transformer.
|
|
|
|
|
|
Stretnutie 17.2.2023
|
|
|
|
Úlohy
|
|
|
|
- Zoberte existujúci model SlovakBERT-stsb a použite ho na dotrénovanie bi-encódera na databáze SK quad. Porovnajte presnosť vyhľadávania s bi-encóderom natrénovaným iba na SlovakBERT (dodá vedúci). Použite skripty v repozitári slovak-retrieval.
|
|
- Urobte prehľad databáz potrebných na dotrénovanie Sentence Transformer. Vyberte vhodnú databázu na strojový preklad, napr. nejakú NLI databázu. Použite ju na dotrénovanie bi-encódera.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Zistite ako využiť slovenský generatívny model pre sémantické vyhľadávnaie. Pripravte experiment a vyhodnotte ho.
|
|
- Vyberte databázu pre sémantické vyhľadávanie alebo question answering na vhodnú na vytvorenie slovenského klonu.
|
|
|
|
|
|
Stretnutie 24.11.
|
|
|
|
Úlohy:
|
|
|
|
- Porozmýľať ďalej o téme, komuikovať o možnom grante na anotáciu.
|
|
- Vyskúšajte [Sentence Transformers framework](https://github.com/UKPLab/sentence-transformers/tree/master/examples). Pozrite si príklady, ako trénovať.
|
|
- Prečítajte si článok https://arxiv.org/abs/1908.10084.
|
|
- Zistite, čo je Natural Language Inference, aké sú dostupné databázy.
|
|
- Zistite, čo je Semantic Textual Similarity, aké sú dostupné databázy.
|
|
- Pozrite si https://git.kemt.fei.tuke.sk/dano/slovakretrieval/
|
|
|
|
# Bakalárska práca 2022
|
|
|
|
Návrh na názov bakalárkej práce:
|
|
|
|
Model Spacy pre spracovanie prirodzeného jazyka v slovenčine
|
|
|
|
Ciele bakalárskej práce:
|
|
|
|
- Zlepšiť presnosť modelu Spacy pre slovenčinu
|
|
|
|
|
|
Zadanie:
|
|
|
|
1. Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
|
|
2. Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
|
|
3. Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.
|
|
4. Identifikujte slabé miesta a zlepšite presnosť spracovania.
|
|
|
|
25.3.2022
|
|
|
|
- Zopakované trénovanie POS aj NER
|
|
- Zisitili sme, že keď sa NER trénuje osobitne bez POS tak dáva lepšie výsledky. Prečo?
|
|
- konfiguračné súbory sú na githube. malý nepoužíva slovné vektory, stredný používa 200000 ti. slov vektorov.
|
|
- uncased multilingual bert vychadza lepsie ako cased.
|
|
- v konfiguácii sú fasattext slovné vektory aj multilingualbert uncased. Používajú sa slovné vektory pri klasifikácii???
|
|
|
|
Úlohy:
|
|
|
|
- Zosumarizovať výsledky experimentov do písomneč časti
|
|
- Finalizovať BP - na ďalšom stretnutí prejdeme spolu draft.
|
|
- Pripraviť skripty na natrenovanie modelov na verejnú distribúciu.
|
|
|
|
|
|
4.3. 2022
|
|
|
|
- Natrénované NER modely Spacy Transformers, výsledky sú na wandb
|
|
|
|
Úlohy:
|
|
|
|
- [ ] Pripraviť modely (návody na trénovanie) na verejnú distribúciu.
|
|
- [x] Natrénovať menšie modely bez slovných vektorov.
|
|
- [-] Pokračovať v písaní.
|
|
- [x] Vytvoriť rozhranie pre využitie modelov huggingface ,modelov slovakbert. Využiť spacy-transformers alebo spacy-sentence-transformers.
|
|
- [x] Na githube vytvorte fork alebo branch repozitára, dajte mi prístup. tam bude pracovná verzia s novými modelmi.
|
|
|
|
25.2.2022
|
|
|
|
- Vyskúšané experimenty s hyperparametrami s pôvodnou architektúrou POS modelu.
|
|
- Zmenená architektúra POS na Spacy Transformer (bez BERT predtrénovania, využíva slovné vektory). Dosiahnuté zlepšenie POS z 0.8 na 0,9. Výsledky sú vo forme grafu dostupné na wandb
|
|
|
|
Úlohy:
|
|
|
|
- Zdieľať wandb projekt,
|
|
- Vyskúšať transformers architektúru na NER model.
|
|
- Vyskúšať BERT architektúry - MultilingualBERT, SlovakBERT, LABSE, Slovak GPT
|
|
- Pracujte na texte
|
|
|
|
|
|
## Bakalársky projekt 2021
|
|
|
|
|
|
18.2.2022
|
|
|
|
- Na idoc je problém s timeout pri zostaení pip balíčka, ale funguje trénovanie spacy pos
|
|
|
|
Úlohy:
|
|
|
|
- [x] Zatiaľ sa sústrediť na POS model čo funguje.
|
|
- [x] Do týždňa opraviť idoc (pre vedúceho).
|
|
|
|
|
|
7.2.2022
|
|
|
|
- Rozbehaný trénovací skript na vlastnom počítači
|
|
- Spustených niekoľko experimentov.
|
|
|
|
Úlohy:
|
|
|
|
- [x] Pokračujte v otvorených úlohách.
|
|
- [x] Výsledky experimentov dajte do tabuľky do práce.
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
- [x] Skúste použiť logovací nástroj https://docs.wandb.ai/guides/integrations/spacy
|
|
- [x] Skúste rozbehať trénovacie skripty na školskom servri. Problémy vytriešime na konzultácii.
|
|
|
|
26.11. 2021
|
|
|
|
- Absolvovaný kurz Explosion https://course.spacy.io/en/
|
|
- Mierne zlepšený text práce.
|
|
|
|
Úlohy:
|
|
|
|
- [x] Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta. Celý proces by mal byť opakovateľný,
|
|
- [x] Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3
|
|
- [ ] Skúste pridať MultilingualBert do trénovania.
|
|
- [ ] Pokračujte v práci na textovej časti.
|
|
- [x] Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári.
|
|
|
|
|
|
Zápis 21.10.
|
|
|
|
Vyskúšať toto:
|
|
|
|
- [MultilingualBert](https://github.com/google-research/bert/blob/master/multilingual.md). Dá sa adaptovať na Slovak Treebank.
|
|
- [Spacy Transformers](https://spacy.io/universe/project/spacy-transformers)
|
|
|
|
Stretnutie 15.10.
|
|
|
|
Stav:
|
|
|
|
- Rozpracovaná kapitola o Spacy
|
|
- Pokusné trénovanie HuggingFace v Pytorch
|
|
|
|
Úlohy:
|
|
|
|
- Pokračovať v otvorených úlohách.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Aplikovať model BERT do Spacy Pipeline.
|
|
|
|
Stretnutie 1.10
|
|
|
|
Stav:
|
|
|
|
- Vypracovaných asi 8 strán osnovy
|
|
- Preštudované Transformery a Spacy
|
|
- Vyskúšané trénovanie Pytorch
|
|
|
|
Úlohy:
|
|
|
|
- Pripravte si prostredie Anaconda a v ňom spustite trénovanie.
|
|
- Pokračovať v otvorených úlohách.
|
|
|
|
Stretnutie 24.9.2021
|
|
|
|
Stav:
|
|
|
|
- Naštudovaná knižnica Spacy - pozreté tutoriály
|
|
- Vytvorený prístup na idoc
|
|
|
|
Úlohy:
|
|
|
|
- Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc.
|
|
- Skúste napísať osnovu BP práce.
|
|
- Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli.
|
|
- Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok.
|
|
- Zistite ako by sa dal zlepšiť proces trénovania.
|
|
|
|
|
|
Stretnutie 25.6.2021
|
|
|
|
- Vytvorený prístup do repozitára spacy-skmodel na GIThube
|
|
|
|
Úlohy:
|
|
|
|
- Skúste spustiť trénovací skript a natrénovať slovenský spacy model
|
|
- Pozrite si bakalársku prácu [Martin Wencel](/students/2018/martin_wencel)
|
|
|
|
|