zpwiki/pages/students/2019/kristian_sopkovic/README.md

6.4 KiB

title published taxonomy
Kristián Sopkovič true
category tag author
bp2022
dp2024
spacy
nlp
Daniel Hladek

rok začiatku štúdia: 2019

Diplomová práca 2024

Neurónové vyhľadávanie na základe sémantickej podobnosti vektorov.

  1. Vypracujte prehľad metód neurónovej vektorovej reprezentácie viet alebo odsekov.
  2. Pripravte trénovaciu množinu a natrénujte model vektorovej reprezentácie dokumentov.
  3. Vyhodnoťte natrénovaný model vo viacerých experimentoch.
  4. Identifikujte slabé miesta modelu a navrhnite jeho zlepšenia.

Zadanie sa ešte môže zmeniť.

Súvisiace práce: Michal Stromko

Cieľ je zlepšiť slovenské vyhľadávanie pomocou neurónových sietí.

Námety na tému:

  • Natrénujte alebo dotrénujte Sentence Transformer Model, alebo iný model pre sémantícké vyhľadávanie. Aké sú potrebné databázy? Je možné dotrénovať multilinguálny model?
  • Vytvorte databázu pre trénovanie SBERT. Strojový preklad, existujúcej NLI databázy, Semantic Textual Similarity databázy. Alebo ak získame grant, tak vytvoríme "originálnu" (klon) slovenskú databázu.

Stretnutie 24.11.

Úlohy:

Bakalárska práca 2022

Návrh na názov bakalárkej práce:

Model Spacy pre spracovanie prirodzeného jazyka v slovenčine

Ciele bakalárskej práce:

  • Zlepšiť presnosť modelu Spacy pre slovenčinu

Zadanie:

  1. Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
  2. Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
  3. Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.
  4. Identifikujte slabé miesta a zlepšite presnosť spracovania.

25.3.2022

  • Zopakované trénovanie POS aj NER
  • Zisitili sme, že keď sa NER trénuje osobitne bez POS tak dáva lepšie výsledky. Prečo?
  • konfiguračné súbory sú na githube. malý nepoužíva slovné vektory, stredný používa 200000 ti. slov vektorov.
  • uncased multilingual bert vychadza lepsie ako cased.
  • v konfiguácii sú fasattext slovné vektory aj multilingualbert uncased. Používajú sa slovné vektory pri klasifikácii???

Úlohy:

  • Zosumarizovať výsledky experimentov do písomneč časti
  • Finalizovať BP - na ďalšom stretnutí prejdeme spolu draft.
  • Pripraviť skripty na natrenovanie modelov na verejnú distribúciu.

4.3. 2022

  • Natrénované NER modely Spacy Transformers, výsledky sú na wandb

Úlohy:

  • Pripraviť modely (návody na trénovanie) na verejnú distribúciu.
  • Natrénovať menšie modely bez slovných vektorov.
  • [-] Pokračovať v písaní.
  • Vytvoriť rozhranie pre využitie modelov huggingface ,modelov slovakbert. Využiť spacy-transformers alebo spacy-sentence-transformers.
  • Na githube vytvorte fork alebo branch repozitára, dajte mi prístup. tam bude pracovná verzia s novými modelmi.

25.2.2022

  • Vyskúšané experimenty s hyperparametrami s pôvodnou architektúrou POS modelu.
  • Zmenená architektúra POS na Spacy Transformer (bez BERT predtrénovania, využíva slovné vektory). Dosiahnuté zlepšenie POS z 0.8 na 0,9. Výsledky sú vo forme grafu dostupné na wandb

Úlohy:

  • Zdieľať wandb projekt,
  • Vyskúšať transformers architektúru na NER model.
  • Vyskúšať BERT architektúry - MultilingualBERT, SlovakBERT, LABSE, Slovak GPT
  • Pracujte na texte

Bakalársky projekt 2021

18.2.2022

  • Na idoc je problém s timeout pri zostaení pip balíčka, ale funguje trénovanie spacy pos

Úlohy:

  • Zatiaľ sa sústrediť na POS model čo funguje.
  • Do týždňa opraviť idoc (pre vedúceho).

7.2.2022

  • Rozbehaný trénovací skript na vlastnom počítači
  • Spustených niekoľko experimentov.

Úlohy:

  • Pokračujte v otvorených úlohách.
  • Výsledky experimentov dajte do tabuľky do práce.

Zásobník úloh:

26.11. 2021

Úlohy:

  • Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta. Celý proces by mal byť opakovateľný,
  • Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3
  • Skúste pridať MultilingualBert do trénovania.
  • Pokračujte v práci na textovej časti.
  • Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári.

Zápis 21.10.

Vyskúšať toto:

Stretnutie 15.10.

Stav:

  • Rozpracovaná kapitola o Spacy
  • Pokusné trénovanie HuggingFace v Pytorch

Úlohy:

  • Pokračovať v otvorených úlohách.

Zásobník úloh:

  • Aplikovať model BERT do Spacy Pipeline.

Stretnutie 1.10

Stav:

  • Vypracovaných asi 8 strán osnovy
  • Preštudované Transformery a Spacy
  • Vyskúšané trénovanie Pytorch

Úlohy:

  • Pripravte si prostredie Anaconda a v ňom spustite trénovanie.
  • Pokračovať v otvorených úlohách.

Stretnutie 24.9.2021

Stav:

  • Naštudovaná knižnica Spacy - pozreté tutoriály
  • Vytvorený prístup na idoc

Úlohy:

  • Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc.
  • Skúste napísať osnovu BP práce.
  • Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli.
  • Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok.
  • Zistite ako by sa dal zlepšiť proces trénovania.

Stretnutie 25.6.2021

  • Vytvorený prístup do repozitára spacy-skmodel na GIThube

Úlohy:

  • Skúste spustiť trénovací skript a natrénovať slovenský spacy model
  • Pozrite si bakalársku prácu Martin Wencel