--- title: Kristián Sopkovič published: true taxonomy: category: [bp2022] tag: [spacy,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2019 # Bakalárska práca 2022 Návrh na názov bakalárkej práce: Model Spacy pre spracovanie prirodzeného jazyka v slovenčine Ciele bakalárskej práce: - Zlepšiť presnosť modelu Spacy pre slovenčinu ## Bakalársky projekt 2021 7.2.2022 - Rozbehaný trénovací skript na vlastnom počítači - Spustených niekoľko experimentov. Úlohy: - Pokračujte v otvorených úlohách. - Výsledky experimentov dajte do tabuľky do práce. Zásobník úloh: - Skúste použiť logovací nástroj https://docs.wandb.ai/guides/integrations/spacy - Skúste rozbehať trénovacie skripty na školskom servri. Problémy vytriešime na konzultácii. 26.11. 2021 - Absolvovaný kurz Explosion https://course.spacy.io/en/ - Mierne zlepšený text práce. Úlohy: - Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta. Celý proces by mal byť opakovateľný, - Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3 - Skúste pridať MultilingualBert do trénovania. - Pokračujte v práci na textovej časti. - Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári. Zápis 21.10. Vyskúšať toto: - [MultilingualBert](https://github.com/google-research/bert/blob/master/multilingual.md). Dá sa adaptovať na Slovak Treebank. - [Spacy Transformers](https://spacy.io/universe/project/spacy-transformers) Stretnutie 15.10. Stav: - Rozpracovaná kapitola o Spacy - Pokusné trénovanie HuggingFace v Pytorch Úlohy: - Pokračovať v otvorených úlohách. Zásobník úloh: - Aplikovať model BERT do Spacy Pipeline. Stretnutie 1.10 Stav: - Vypracovaných asi 8 strán osnovy - Preštudované Transformery a Spacy - Vyskúšané trénovanie Pytorch Úlohy: - Pripravte si prostredie Anaconda a v ňom spustite trénovanie. - Pokračovať v otvorených úlohách. Stretnutie 24.9.2021 Stav: - Naštudovaná knižnica Spacy - pozreté tutoriály - Vytvorený prístup na idoc Úlohy: - Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc. - Skúste napísať osnovu BP práce. - Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli. - Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok. - Zistite ako by sa dal zlepšiť proces trénovania. Stretnutie 25.6.2021 - Vytvorený prístup do repozitára spacy-skmodel na GIThube Úlohy: - Skúste spustiť trénovací skript a natrénovať slovenský spacy model - Pozrite si bakalársku prácu [Martin Wencel](/students/2018/martin_wencel)