du707zr/dmytro_ushatenko

Fork 0

forked from KEMT/zpwiki

dano 6a3d7ff793 Update 'pages/students/2019/kristian_sopkovic/README.md'

2022-12-19 13:49:11 +00:00

6.4 KiB

Raw Blame History

title

published

taxonomy

Kristián Sopkovič

true

Diplomová práca 2024

Neurónové vyhľadávanie na základe sémantickej podobnosti vektorov.

Vypracujte prehľad metód neurónovej vektorovej reprezentácie viet alebo odsekov.
Pripravte trénovaciu množinu a natrénujte model vektorovej reprezentácie dokumentov.
Vyhodnoťte natrénovaný model vo viacerých experimentoch.
Identifikujte slabé miesta modelu a navrhnite jeho zlepšenia.

Zadanie sa ešte môže zmeniť.

Súvisiace práce: Michal Stromko

Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí.

Námety na tému:

Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať multilinguálny model?
Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu.

Stretnutie 24.11.

Úlohy:

Porozmýľať ďalej o téme, komuikovať o možnom grante na anotáciu.
Vyskúšajte Sentence Transformers framework. Pozrite si príklady, ako trénovať.
Prečítajte si článok https://arxiv.org/abs/1908.10084.
Zistite, čo je Natural Language Inference, aké sú dostupné databázy.
Zistite, čo je Semantic Textual Similarity, aké sú dostupné databázy.
Pozrite si https://git.kemt.fei.tuke.sk/dano/slovakretrieval/

Bakalárska práca 2022

Návrh na názov bakalárkej práce:

Model Spacy pre spracovanie prirodzeného jazyka v slovenčine

Ciele bakalárskej práce:

Zlepšiť presnosť modelu Spacy pre slovenčinu

Zadanie:

Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.
Identifikujte slabé miesta a zlepšite presnosť spracovania.

25.3.2022

Zopakované trénovanie POS aj NER
Zisitili sme, že keď sa NER trénuje osobitne bez POS tak dáva lepšie výsledky. Prečo?
konfiguračné súbory sú na githube. malý nepoužíva slovné vektory, stredný používa 200000 ti. slov vektorov.
uncased multilingual bert vychadza lepsie ako cased.
v konfiguácii sú fasattext slovné vektory aj multilingualbert uncased. Používajú sa slovné vektory pri klasifikácii???

Úlohy:

Zosumarizovať výsledky experimentov do písomneč časti
Finalizovať BP - na ďalšom stretnutí prejdeme spolu draft.
Pripraviť skripty na natrenovanie modelov na verejnú distribúciu.

4.3. 2022

Natrénované NER modely Spacy Transformers, výsledky sú na wandb

Úlohy:

Pripraviť modely (návody na trénovanie) na verejnú distribúciu.
Natrénovať menšie modely bez slovných vektorov.
[-] Pokračovať v písaní.
Vytvoriť rozhranie pre využitie modelov huggingface ,modelov slovakbert. Využiť spacy-transformers alebo spacy-sentence-transformers.
Na githube vytvorte fork alebo branch repozitára, dajte mi prístup. tam bude pracovná verzia s novými modelmi.

25.2.2022

Vyskúšané experimenty s hyperparametrami s pôvodnou architektúrou POS modelu.
Zmenená architektúra POS na Spacy Transformer (bez BERT predtrénovania, využíva slovné vektory). Dosiahnuté zlepšenie POS z 0.8 na 0,9. Výsledky sú vo forme grafu dostupné na wandb

Úlohy:

Zdieľať wandb projekt,
Vyskúšať transformers architektúru na NER model.
Vyskúšať BERT architektúry - MultilingualBERT, SlovakBERT, LABSE, Slovak GPT
Pracujte na texte

Bakalársky projekt 2021

18.2.2022

Na idoc je problém s timeout pri zostaení pip balíčka, ale funguje trénovanie spacy pos

Úlohy:

Zatiaľ sa sústrediť na POS model čo funguje.
Do týždňa opraviť idoc (pre vedúceho).

7.2.2022

Rozbehaný trénovací skript na vlastnom počítači
Spustených niekoľko experimentov.

Úlohy:

Pokračujte v otvorených úlohách.
Výsledky experimentov dajte do tabuľky do práce.

Zásobník úloh:

Skúste použiť logovací nástroj https://docs.wandb.ai/guides/integrations/spacy
Skúste rozbehať trénovacie skripty na školskom servri. Problémy vytriešime na konzultácii.

26.11. 2021

Absolvovaný kurz Explosion https://course.spacy.io/en/
Mierne zlepšený text práce.

Úlohy:

Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta. Celý proces by mal byť opakovateľný,
Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3
Skúste pridať MultilingualBert do trénovania.
Pokračujte v práci na textovej časti.
Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári.

Zápis 21.10.

Vyskúšať toto:

MultilingualBert. Dá sa adaptovať na Slovak Treebank.
Spacy Transformers

Stretnutie 15.10.

Stav:

Rozpracovaná kapitola o Spacy
Pokusné trénovanie HuggingFace v Pytorch

Úlohy:

Pokračovať v otvorených úlohách.

Zásobník úloh:

Aplikovať model BERT do Spacy Pipeline.

Stretnutie 1.10

Stav:

Vypracovaných asi 8 strán osnovy
Preštudované Transformery a Spacy
Vyskúšané trénovanie Pytorch

Úlohy:

Pripravte si prostredie Anaconda a v ňom spustite trénovanie.
Pokračovať v otvorených úlohách.

Stretnutie 24.9.2021

Stav:

Naštudovaná knižnica Spacy - pozreté tutoriály
Vytvorený prístup na idoc

Úlohy:

Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc.
Skúste napísať osnovu BP práce.
Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli.
Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok.
Zistite ako by sa dal zlepšiť proces trénovania.

Stretnutie 25.6.2021

Vytvorený prístup do repozitára spacy-skmodel na GIThube

Úlohy:

Skúste spustiť trénovací skript a natrénovať slovenský spacy model
Pozrite si bakalársku prácu Martin Wencel

6.4 KiB Raw Blame History

Diplomová práca 2024

Bakalárska práca 2022

Bakalársky projekt 2021

6.4 KiB

Raw Blame History