---
title: Kristián Sopkovič
published: true
taxonomy:
    category: [bp2022]
    tag: [spacy,nlp]
    author: Daniel Hladek
---

rok začiatku štúdia: 2019

# Bakalárska práca 2022

Návrh na názov bakalárkej práce:

Model Spacy pre spracovanie prirodzeného jazyka v slovenčine

Ciele bakalárskej práce:

- Zlepšiť presnosť modelu Spacy pre slovenčinu


Zadanie:

1. Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
2. Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
3. Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.
4. Identifikujte slabé miesta a zlepšite presnosť spracovania.

4.3. 2022

- Natrénované NER modely Spacy Transformers, výsledky sú na wandb

Úlohy:

- Pripraviť modely na verejnú distribúciu.
- Natrénovať menšie modely bez slovných vektorov.
- Pokračovať v písaní.
- Vytvoriť rozhranie pre využitie modelov  huggingface ,modelov slovakbert.  Využiť  spacy-transformers alebo spacy-sentence-transformers.
- Na githube vytvorte fork alebo branch repozitára, dajte mi prístup. tam bude pracovná verzia s novými modelmi. 

25.2.2022

- Vyskúšané experimenty s hyperparametrami s pôvodnou architektúrou POS modelu.
- Zmenená architektúra POS na Spacy Transformer (bez BERT predtrénovania, využíva slovné vektory). Dosiahnuté zlepšenie POS z 0.8 na 0,9. Výsledky sú vo forme grafu dostupné na wandb

Úlohy:

- Zdieľať wandb projekt,
- Vyskúšať transformers architektúru na NER model. 
- Vyskúšať BERT architektúry - MultilingualBERT, SlovakBERT, LABSE, Slovak GPT
- Pracujte na texte


## Bakalársky projekt 2021


18.2.2022

- Na idoc je problém s timeout pri zostaení pip balíčka, ale funguje trénovanie spacy pos

Úlohy:

- [x] Zatiaľ sa sústrediť na POS model čo funguje.
- [x] Do týždňa opraviť idoc (pre vedúceho).


7.2.2022

- Rozbehaný trénovací skript na vlastnom počítači
- Spustených niekoľko experimentov.

Úlohy:

- [x] Pokračujte v otvorených úlohách.
- [x] Výsledky experimentov dajte do tabuľky do práce.


Zásobník úloh:

- [x] Skúste použiť logovací nástroj https://docs.wandb.ai/guides/integrations/spacy
- [x] Skúste rozbehať trénovacie skripty na školskom servri. Problémy vytriešime na konzultácii.

26.11. 2021

- Absolvovaný kurz Explosion  https://course.spacy.io/en/
- Mierne zlepšený text práce.

Úlohy:

- [x] Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta.  Celý proces by mal byť opakovateľný,
- [x] Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3
- [ ] Skúste pridať MultilingualBert do trénovania.
- [ ] Pokračujte v práci na textovej časti.
- [x] Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári.


Zápis 21.10.

Vyskúšať toto:

- [MultilingualBert](https://github.com/google-research/bert/blob/master/multilingual.md). Dá sa adaptovať na Slovak Treebank.
- [Spacy Transformers](https://spacy.io/universe/project/spacy-transformers)

Stretnutie 15.10.

Stav:

- Rozpracovaná kapitola o Spacy
- Pokusné trénovanie HuggingFace v Pytorch

Úlohy:

- Pokračovať v otvorených úlohách.

Zásobník úloh:

- Aplikovať model BERT do Spacy Pipeline.

Stretnutie 1.10

Stav:

- Vypracovaných asi 8 strán osnovy
- Preštudované Transformery a Spacy
- Vyskúšané trénovanie Pytorch

Úlohy:

- Pripravte si prostredie Anaconda a v ňom spustite trénovanie.
- Pokračovať v otvorených úlohách.

Stretnutie 24.9.2021

Stav:

- Naštudovaná knižnica Spacy - pozreté tutoriály
- Vytvorený prístup na idoc

Úlohy:

- Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc.
- Skúste napísať osnovu BP práce.
- Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli.
- Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok.
- Zistite ako by sa dal zlepšiť proces trénovania.


Stretnutie 25.6.2021

- Vytvorený prístup do repozitára spacy-skmodel na GIThube

Úlohy:

- Skúste spustiť trénovací skript a natrénovať slovenský spacy model
- Pozrite si bakalársku prácu [Martin Wencel](/students/2018/martin_wencel)