.. | ||
README.md |
title | published | taxonomy | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
Kristián Sopkovič | true |
|
rok začiatku štúdia: 2019
Diplomová práca 2024
Súvisiace práce: Michal Stromko
Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí.
Námety na tému:
- Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať multilinguálny model?
- Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu.
Stretnutie 24.11.
Úlohy:
- Porozmýľať ďalej o téme, komuikovať o možnom grante na anotáciu.
- Vyskúšajte Sentence Transformers framework. Pozrite si príklady, ako trénovať.
- Prečítajte si článok https://arxiv.org/abs/1908.10084.
- Zistite, čo je Natural Language Inference, aké sú dostupné databázy.
- Zistite, čo je Semantic Textual Similarity, aké sú dostupné databázy.
- Pozrite si https://git.kemt.fei.tuke.sk/dano/slovakretrieval/
Bakalárska práca 2022
Návrh na názov bakalárkej práce:
Model Spacy pre spracovanie prirodzeného jazyka v slovenčine
Ciele bakalárskej práce:
- Zlepšiť presnosť modelu Spacy pre slovenčinu
Zadanie:
- Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
- Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
- Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.
- Identifikujte slabé miesta a zlepšite presnosť spracovania.
25.3.2022
- Zopakované trénovanie POS aj NER
- Zisitili sme, že keď sa NER trénuje osobitne bez POS tak dáva lepšie výsledky. Prečo?
- konfiguračné súbory sú na githube. malý nepoužíva slovné vektory, stredný používa 200000 ti. slov vektorov.
- uncased multilingual bert vychadza lepsie ako cased.
- v konfiguácii sú fasattext slovné vektory aj multilingualbert uncased. Používajú sa slovné vektory pri klasifikácii???
Úlohy:
- Zosumarizovať výsledky experimentov do písomneč časti
- Finalizovať BP - na ďalšom stretnutí prejdeme spolu draft.
- Pripraviť skripty na natrenovanie modelov na verejnú distribúciu.
4.3. 2022
- Natrénované NER modely Spacy Transformers, výsledky sú na wandb
Úlohy:
- Pripraviť modely (návody na trénovanie) na verejnú distribúciu.
- Natrénovať menšie modely bez slovných vektorov.
- [-] Pokračovať v písaní.
- Vytvoriť rozhranie pre využitie modelov huggingface ,modelov slovakbert. Využiť spacy-transformers alebo spacy-sentence-transformers.
- Na githube vytvorte fork alebo branch repozitára, dajte mi prístup. tam bude pracovná verzia s novými modelmi.
25.2.2022
- Vyskúšané experimenty s hyperparametrami s pôvodnou architektúrou POS modelu.
- Zmenená architektúra POS na Spacy Transformer (bez BERT predtrénovania, využíva slovné vektory). Dosiahnuté zlepšenie POS z 0.8 na 0,9. Výsledky sú vo forme grafu dostupné na wandb
Úlohy:
- Zdieľať wandb projekt,
- Vyskúšať transformers architektúru na NER model.
- Vyskúšať BERT architektúry - MultilingualBERT, SlovakBERT, LABSE, Slovak GPT
- Pracujte na texte
Bakalársky projekt 2021
18.2.2022
- Na idoc je problém s timeout pri zostaení pip balíčka, ale funguje trénovanie spacy pos
Úlohy:
- Zatiaľ sa sústrediť na POS model čo funguje.
- Do týždňa opraviť idoc (pre vedúceho).
7.2.2022
- Rozbehaný trénovací skript na vlastnom počítači
- Spustených niekoľko experimentov.
Úlohy:
- Pokračujte v otvorených úlohách.
- Výsledky experimentov dajte do tabuľky do práce.
Zásobník úloh:
- Skúste použiť logovací nástroj https://docs.wandb.ai/guides/integrations/spacy
- Skúste rozbehať trénovacie skripty na školskom servri. Problémy vytriešime na konzultácii.
26.11. 2021
- Absolvovaný kurz Explosion https://course.spacy.io/en/
- Mierne zlepšený text práce.
Úlohy:
- Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta. Celý proces by mal byť opakovateľný,
- Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3
- Skúste pridať MultilingualBert do trénovania.
- Pokračujte v práci na textovej časti.
- Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári.
Zápis 21.10.
Vyskúšať toto:
- MultilingualBert. Dá sa adaptovať na Slovak Treebank.
- Spacy Transformers
Stretnutie 15.10.
Stav:
- Rozpracovaná kapitola o Spacy
- Pokusné trénovanie HuggingFace v Pytorch
Úlohy:
- Pokračovať v otvorených úlohách.
Zásobník úloh:
- Aplikovať model BERT do Spacy Pipeline.
Stretnutie 1.10
Stav:
- Vypracovaných asi 8 strán osnovy
- Preštudované Transformery a Spacy
- Vyskúšané trénovanie Pytorch
Úlohy:
- Pripravte si prostredie Anaconda a v ňom spustite trénovanie.
- Pokračovať v otvorených úlohách.
Stretnutie 24.9.2021
Stav:
- Naštudovaná knižnica Spacy - pozreté tutoriály
- Vytvorený prístup na idoc
Úlohy:
- Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc.
- Skúste napísať osnovu BP práce.
- Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli.
- Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok.
- Zistite ako by sa dal zlepšiť proces trénovania.
Stretnutie 25.6.2021
- Vytvorený prístup do repozitára spacy-skmodel na GIThube
Úlohy:
- Skúste spustiť trénovací skript a natrénovať slovenský spacy model
- Pozrite si bakalársku prácu Martin Wencel