dmytro_ushatenko/pages/students/2019/kristian_sopkovic/README.md

9.6 KiB

title published taxonomy
Kristián Sopkovič true
category tag author
bp2022
dp2024
spacy
nlp
Daniel Hladek

rok začiatku štúdia: 2019

Diplomová práca 2024

Neurónové vyhľadávanie na základe sémantickej podobnosti vektorov.

  1. Vypracujte prehľad metód neurónovej vektorovej reprezentácie viet alebo odsekov.
  2. Pripravte trénovaciu množinu a natrénujte model vektorovej reprezentácie dokumentov.
  3. Vyhodnoťte natrénovaný model vo viacerých experimentoch.
  4. Identifikujte slabé miesta modelu a navrhnite jeho zlepšenia.

Zadanie sa ešte môže zmeniť.

Súvisiace práce: Michal Stromko

Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí.

Námety na tému:

  • Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať multilinguálny model?
  • Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu.

Slovak Semantic Textual Similarity Benchmark na trénovanie Sentence Transformer.

Stretnutie 25.5.

Stav:

  • Trénovanie MNLR nebolo v poriadku, lebo boli použité iba kladné príklady.

Uohha:

  • Natrénvoať model SNLI a STSB kritéroum Softmax. Trénujte osobinte na dvoch databázaoch. Ak to je možné, skúste dotrénovanie toho istého modelu najprv na jednej databáze a potom na druhej.
  • vyhodnotte recall vyhľadávania na databáze sk-quad.
  • porovnajte to s modelom mnlr sk quad.
  • pracujte na písomnej časti.

Stretnutie 5.5.2023

Stav:

  • Natrénovaný model MNLR SlovakBERT na preloženej databáze Standformd SNLI.st.: tot je asi zle
  • Urobnené predbežné vyhodnotenie - analýza strednej hodnoty kosínusovej podobnosti pre triedy entailment, contradiction, neutral.
  • Výsledkom MNLR je kosínusové podobnisť.
  • Urobené aj softmax trénovanie. Výsledkom softmax je trieda pre 2 zadané vety.

Úlohy:

  • Upravte a dajte trénovacie skripty na GIT.
  • Vyhodnotiť presnosť klasifikácie softmax pomocou konfúznej matice - p,r,f1
  • Dotrénovať SNLI ST na SK Quad a vyhodnotiť na úlohe sémantického vyhľadávania. - recall. To tj e zlá úloha.
  • Pracujte na písomnej správe, ktorá poslúži ako základ pre DP a pre článok. Do textu opíšte trénovanie ktoré ste vykonali, postup pri preklade, návrh experimentov a výsledky. Do teoretickej časti píšte o sentence transformeroch.

Zásobník úloh:

  • Cieľom je poblikovať kvalitný článok.
  • Cieľ 2 je aplikovať model pre úlohu vyhonotenia súladu staevebnej dokumentácie so regulatívou - zákonmi a vyhláškami.
  • Využijeme databázu STSB-sk (na hf hube) ako ďalší zdroj dát
  • Pripravte porovnávacie experimenty pre anglické datasety.
  • Do ďalších experimentov zahrnte multilinguálne modely.

Stretnutie 24.4.2023

Stav:

  • Preložené SNLI - všetky 3 časti.

Stretnutie 17.3.2023

Stav:

  • Je preložená SNLI databáza, trénovacia časť. Použitý OPUS Helsinki NLP model

Úlohy:

  • Preložiť aj testovaciu časť.
  • Natrénovať Sentence Transforner (ST) na databáze SNLI, podľa SlovakBERT.
  • Dotrénovať SNLI ST na SK Quad a vyhodnotiť na úlohe sémantického vyhľadávania. - recall
  • Podobným spôsobom vyhodnotiť Slovakbert-stsb.
  • Napíšte o tom čo je to ST, ako funguje. Pripravte prehľad databáz na trénovanie ST.

Zásobník úloh:

  • Porovnať s slovakbert-crossencoder na tuke-dtss modelmm.

Stretnutie 17.2.2023

Úlohy

  • Zoberte existujúci model SlovakBERT-stsb a použite ho na dotrénovanie bi-encódera na databáze SK quad. Porovnajte presnosť vyhľadávania s bi-encóderom natrénovaným iba na SlovakBERT (dodá vedúci). Použite skripty v repozitári slovak-retrieval.
  • Urobte prehľad databáz potrebných na dotrénovanie Sentence Transformer. Vyberte vhodnú databázu na strojový preklad, napr. nejakú NLI databázu. Použite ju na dotrénovanie bi-encódera.

Zásobník úloh:

  • Zistite ako využiť slovenský generatívny model pre sémantické vyhľadávnaie. Pripravte experiment a vyhodnotte ho.
  • Vyberte databázu pre sémantické vyhľadávanie alebo question answering na vhodnú na vytvorenie slovenského klonu.

Stretnutie 24.11.

Úlohy:

Bakalárska práca 2022

Návrh na názov bakalárkej práce:

Model Spacy pre spracovanie prirodzeného jazyka v slovenčine

Ciele bakalárskej práce:

  • Zlepšiť presnosť modelu Spacy pre slovenčinu

Zadanie:

  1. Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
  2. Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
  3. Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.
  4. Identifikujte slabé miesta a zlepšite presnosť spracovania.

25.3.2022

  • Zopakované trénovanie POS aj NER
  • Zisitili sme, že keď sa NER trénuje osobitne bez POS tak dáva lepšie výsledky. Prečo?
  • konfiguračné súbory sú na githube. malý nepoužíva slovné vektory, stredný používa 200000 ti. slov vektorov.
  • uncased multilingual bert vychadza lepsie ako cased.
  • v konfiguácii sú fasattext slovné vektory aj multilingualbert uncased. Používajú sa slovné vektory pri klasifikácii???

Úlohy:

  • Zosumarizovať výsledky experimentov do písomneč časti
  • Finalizovať BP - na ďalšom stretnutí prejdeme spolu draft.
  • Pripraviť skripty na natrenovanie modelov na verejnú distribúciu.

4.3. 2022

  • Natrénované NER modely Spacy Transformers, výsledky sú na wandb

Úlohy:

  • Pripraviť modely (návody na trénovanie) na verejnú distribúciu.
  • Natrénovať menšie modely bez slovných vektorov.
  • [-] Pokračovať v písaní.
  • Vytvoriť rozhranie pre využitie modelov huggingface ,modelov slovakbert. Využiť spacy-transformers alebo spacy-sentence-transformers.
  • Na githube vytvorte fork alebo branch repozitára, dajte mi prístup. tam bude pracovná verzia s novými modelmi.

25.2.2022

  • Vyskúšané experimenty s hyperparametrami s pôvodnou architektúrou POS modelu.
  • Zmenená architektúra POS na Spacy Transformer (bez BERT predtrénovania, využíva slovné vektory). Dosiahnuté zlepšenie POS z 0.8 na 0,9. Výsledky sú vo forme grafu dostupné na wandb

Úlohy:

  • Zdieľať wandb projekt,
  • Vyskúšať transformers architektúru na NER model.
  • Vyskúšať BERT architektúry - MultilingualBERT, SlovakBERT, LABSE, Slovak GPT
  • Pracujte na texte

Bakalársky projekt 2021

18.2.2022

  • Na idoc je problém s timeout pri zostaení pip balíčka, ale funguje trénovanie spacy pos

Úlohy:

  • Zatiaľ sa sústrediť na POS model čo funguje.
  • Do týždňa opraviť idoc (pre vedúceho).

7.2.2022

  • Rozbehaný trénovací skript na vlastnom počítači
  • Spustených niekoľko experimentov.

Úlohy:

  • Pokračujte v otvorených úlohách.
  • Výsledky experimentov dajte do tabuľky do práce.

Zásobník úloh:

26.11. 2021

Úlohy:

  • Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta. Celý proces by mal byť opakovateľný,
  • Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3
  • Skúste pridať MultilingualBert do trénovania.
  • Pokračujte v práci na textovej časti.
  • Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári.

Zápis 21.10.

Vyskúšať toto:

Stretnutie 15.10.

Stav:

  • Rozpracovaná kapitola o Spacy
  • Pokusné trénovanie HuggingFace v Pytorch

Úlohy:

  • Pokračovať v otvorených úlohách.

Zásobník úloh:

  • Aplikovať model BERT do Spacy Pipeline.

Stretnutie 1.10

Stav:

  • Vypracovaných asi 8 strán osnovy
  • Preštudované Transformery a Spacy
  • Vyskúšané trénovanie Pytorch

Úlohy:

  • Pripravte si prostredie Anaconda a v ňom spustite trénovanie.
  • Pokračovať v otvorených úlohách.

Stretnutie 24.9.2021

Stav:

  • Naštudovaná knižnica Spacy - pozreté tutoriály
  • Vytvorený prístup na idoc

Úlohy:

  • Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc.
  • Skúste napísať osnovu BP práce.
  • Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli.
  • Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok.
  • Zistite ako by sa dal zlepšiť proces trénovania.

Stretnutie 25.6.2021

  • Vytvorený prístup do repozitára spacy-skmodel na GIThube

Úlohy:

  • Skúste spustiť trénovací skript a natrénovať slovenský spacy model
  • Pozrite si bakalársku prácu Martin Wencel