forked from KEMT/zpwiki
		
	| .. | ||
| README.md | ||
| title | published | taxonomy | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Kristián Sopkovič | true | 
  | 
rok začiatku štúdia: 2019
Bakalárska práca 2022
Návrh na názov bakalárkej práce:
Model Spacy pre spracovanie prirodzeného jazyka v slovenčine
Ciele bakalárskej práce:
- Zlepšiť presnosť modelu Spacy pre slovenčinu
 
Zadanie:
- Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
 - Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
 - Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.
 - Identifikujte slabé miesta a zlepšite presnosť spracovania.
 
25.3.2022
- Zopakované trénovanie POS aj NER
 - Zisitili sme, že keď sa NER trénuje osobitne bez POS tak dáva lepšie výsledky. Prečo?
 - konfiguračné súbory sú na githube. malý nepoužíva slovné vektory, stredný používa 200000 ti. slov vektorov.
 - uncased multilingual bert vychadza lepsie ako cased.
 - v konfiguácii sú fasattext slovné vektory aj multilingualbert uncased. Používajú sa slovné vektory pri klasifikácii???
 
4.3. 2022
- Natrénované NER modely Spacy Transformers, výsledky sú na wandb
 
Úlohy:
- Pripraviť modely na verejnú distribúciu.
 - Natrénovať menšie modely bez slovných vektorov.
 - Pokračovať v písaní.
 - Vytvoriť rozhranie pre využitie modelov huggingface ,modelov slovakbert. Využiť spacy-transformers alebo spacy-sentence-transformers.
 - Na githube vytvorte fork alebo branch repozitára, dajte mi prístup. tam bude pracovná verzia s novými modelmi.
 
25.2.2022
- Vyskúšané experimenty s hyperparametrami s pôvodnou architektúrou POS modelu.
 - Zmenená architektúra POS na Spacy Transformer (bez BERT predtrénovania, využíva slovné vektory). Dosiahnuté zlepšenie POS z 0.8 na 0,9. Výsledky sú vo forme grafu dostupné na wandb
 
Úlohy:
- Zdieľať wandb projekt,
 - Vyskúšať transformers architektúru na NER model.
 - Vyskúšať BERT architektúry - MultilingualBERT, SlovakBERT, LABSE, Slovak GPT
 - Pracujte na texte
 
Bakalársky projekt 2021
18.2.2022
- Na idoc je problém s timeout pri zostaení pip balíčka, ale funguje trénovanie spacy pos
 
Úlohy:
- Zatiaľ sa sústrediť na POS model čo funguje.
 - Do týždňa opraviť idoc (pre vedúceho).
 
7.2.2022
- Rozbehaný trénovací skript na vlastnom počítači
 - Spustených niekoľko experimentov.
 
Úlohy:
- Pokračujte v otvorených úlohách.
 - Výsledky experimentov dajte do tabuľky do práce.
 
Zásobník úloh:
- Skúste použiť logovací nástroj https://docs.wandb.ai/guides/integrations/spacy
 - Skúste rozbehať trénovacie skripty na školskom servri. Problémy vytriešime na konzultácii.
 
26.11. 2021
- Absolvovaný kurz Explosion https://course.spacy.io/en/
 - Mierne zlepšený text práce.
 
Úlohy:
- Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta. Celý proces by mal byť opakovateľný,
 - Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3
 - Skúste pridať MultilingualBert do trénovania.
 - Pokračujte v práci na textovej časti.
 - Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári.
 
Zápis 21.10.
Vyskúšať toto:
- MultilingualBert. Dá sa adaptovať na Slovak Treebank.
 - Spacy Transformers
 
Stretnutie 15.10.
Stav:
- Rozpracovaná kapitola o Spacy
 - Pokusné trénovanie HuggingFace v Pytorch
 
Úlohy:
- Pokračovať v otvorených úlohách.
 
Zásobník úloh:
- Aplikovať model BERT do Spacy Pipeline.
 
Stretnutie 1.10
Stav:
- Vypracovaných asi 8 strán osnovy
 - Preštudované Transformery a Spacy
 - Vyskúšané trénovanie Pytorch
 
Úlohy:
- Pripravte si prostredie Anaconda a v ňom spustite trénovanie.
 - Pokračovať v otvorených úlohách.
 
Stretnutie 24.9.2021
Stav:
- Naštudovaná knižnica Spacy - pozreté tutoriály
 - Vytvorený prístup na idoc
 
Úlohy:
- Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc.
 - Skúste napísať osnovu BP práce.
 - Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli.
 - Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok.
 - Zistite ako by sa dal zlepšiť proces trénovania.
 
Stretnutie 25.6.2021
- Vytvorený prístup do repozitára spacy-skmodel na GIThube
 
Úlohy:
- Skúste spustiť trénovací skript a natrénovať slovenský spacy model
 - Pozrite si bakalársku prácu Martin Wencel