--- title: Kristián Sopkovič published: true taxonomy: category: [bp2022] tag: [spacy,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2019 # Bakalárska práca 2022 Návrh na názov bakalárkej práce: Model Spacy pre spracovanie prirodzeného jazyka v slovenčine Ciele bakalárskej práce: - Zlepšiť presnosť modelu Spacy pre slovenčinu Zadanie: 1. Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa. 2. Natrénujte model pre spracovanie slovenského prirodzeného jazyka. 3. Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch. 4. Identifikujte slabé miesta a zlepšite presnosť spracovania. 25.3.2022 - Zopakované trénovanie POS aj NER - Zisitili sme, že keď sa NER trénuje osobitne bez POS tak dáva lepšie výsledky. Prečo? - konfiguračné súbory sú na githube. malý nepoužíva slovné vektory, stredný používa 200000 ti. slov vektorov. 4.3. 2022 - Natrénované NER modely Spacy Transformers, výsledky sú na wandb Úlohy: - Pripraviť modely na verejnú distribúciu. - Natrénovať menšie modely bez slovných vektorov. - Pokračovať v písaní. - Vytvoriť rozhranie pre využitie modelov huggingface ,modelov slovakbert. Využiť spacy-transformers alebo spacy-sentence-transformers. - Na githube vytvorte fork alebo branch repozitára, dajte mi prístup. tam bude pracovná verzia s novými modelmi. 25.2.2022 - Vyskúšané experimenty s hyperparametrami s pôvodnou architektúrou POS modelu. - Zmenená architektúra POS na Spacy Transformer (bez BERT predtrénovania, využíva slovné vektory). Dosiahnuté zlepšenie POS z 0.8 na 0,9. Výsledky sú vo forme grafu dostupné na wandb Úlohy: - Zdieľať wandb projekt, - Vyskúšať transformers architektúru na NER model. - Vyskúšať BERT architektúry - MultilingualBERT, SlovakBERT, LABSE, Slovak GPT - Pracujte na texte ## Bakalársky projekt 2021 18.2.2022 - Na idoc je problém s timeout pri zostaení pip balíčka, ale funguje trénovanie spacy pos Úlohy: - [x] Zatiaľ sa sústrediť na POS model čo funguje. - [x] Do týždňa opraviť idoc (pre vedúceho). 7.2.2022 - Rozbehaný trénovací skript na vlastnom počítači - Spustených niekoľko experimentov. Úlohy: - [x] Pokračujte v otvorených úlohách. - [x] Výsledky experimentov dajte do tabuľky do práce. Zásobník úloh: - [x] Skúste použiť logovací nástroj https://docs.wandb.ai/guides/integrations/spacy - [x] Skúste rozbehať trénovacie skripty na školskom servri. Problémy vytriešime na konzultácii. 26.11. 2021 - Absolvovaný kurz Explosion https://course.spacy.io/en/ - Mierne zlepšený text práce. Úlohy: - [x] Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta. Celý proces by mal byť opakovateľný, - [x] Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3 - [ ] Skúste pridať MultilingualBert do trénovania. - [ ] Pokračujte v práci na textovej časti. - [x] Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári. Zápis 21.10. Vyskúšať toto: - [MultilingualBert](https://github.com/google-research/bert/blob/master/multilingual.md). Dá sa adaptovať na Slovak Treebank. - [Spacy Transformers](https://spacy.io/universe/project/spacy-transformers) Stretnutie 15.10. Stav: - Rozpracovaná kapitola o Spacy - Pokusné trénovanie HuggingFace v Pytorch Úlohy: - Pokračovať v otvorených úlohách. Zásobník úloh: - Aplikovať model BERT do Spacy Pipeline. Stretnutie 1.10 Stav: - Vypracovaných asi 8 strán osnovy - Preštudované Transformery a Spacy - Vyskúšané trénovanie Pytorch Úlohy: - Pripravte si prostredie Anaconda a v ňom spustite trénovanie. - Pokračovať v otvorených úlohách. Stretnutie 24.9.2021 Stav: - Naštudovaná knižnica Spacy - pozreté tutoriály - Vytvorený prístup na idoc Úlohy: - Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc. - Skúste napísať osnovu BP práce. - Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli. - Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok. - Zistite ako by sa dal zlepšiť proces trénovania. Stretnutie 25.6.2021 - Vytvorený prístup do repozitára spacy-skmodel na GIThube Úlohy: - Skúste spustiť trénovací skript a natrénovať slovenský spacy model - Pozrite si bakalársku prácu [Martin Wencel](/students/2018/martin_wencel)