zpwiki/pages/students/2019/kristian_sopkovic/README.md

3.1 KiB

title published taxonomy
Kristián Sopkovič true
category tag author
bp2022
spacy
nlp
Daniel Hladek

rok začiatku štúdia: 2019

Bakalárska práca 2022

Návrh na názov bakalárkej práce:

Model Spacy pre spracovanie prirodzeného jazyka v slovenčine

Ciele bakalárskej práce:

  • Zlepšiť presnosť modelu Spacy pre slovenčinu

Zadanie:

  1. Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
  2. Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
  3. Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.
  4. Identifikujte slabé miesta a zlepšite presnosť spracovania.

Bakalársky projekt 2021

7.2.2022

  • Rozbehaný trénovací skript na vlastnom počítači
  • Spustených niekoľko experimentov.

Úlohy:

  • Pokračujte v otvorených úlohách.
  • Výsledky experimentov dajte do tabuľky do práce.

Zásobník úloh:

26.11. 2021

Úlohy:

  • Vytvorte GIT a vložte do neho svoje trénovacie skritpy. Nedávajte tam veľké textové súbory. Dajte odkazy odkiaľ ste získali dáta. Celý proces by mal byť opakovateľný,
  • Skúste zlepšiť hyperparametre môjho trénovacieho skriptu spacy3
  • Skúste pridať MultilingualBert do trénovania.
  • Pokračujte v práci na textovej časti.
  • Vytvorené modely je potrebné vyhodnotiť. Pozrite ako to je v mojom Spacy repozitári.

Zápis 21.10.

Vyskúšať toto:

Stretnutie 15.10.

Stav:

  • Rozpracovaná kapitola o Spacy
  • Pokusné trénovanie HuggingFace v Pytorch

Úlohy:

  • Pokračovať v otvorených úlohách.

Zásobník úloh:

  • Aplikovať model BERT do Spacy Pipeline.

Stretnutie 1.10

Stav:

  • Vypracovaných asi 8 strán osnovy
  • Preštudované Transformery a Spacy
  • Vyskúšané trénovanie Pytorch

Úlohy:

  • Pripravte si prostredie Anaconda a v ňom spustite trénovanie.
  • Pokračovať v otvorených úlohách.

Stretnutie 24.9.2021

Stav:

  • Naštudovaná knižnica Spacy - pozreté tutoriály
  • Vytvorený prístup na idoc

Úlohy:

  • Spustite trénovanie podľa skriptov na githube. Môžete použiť server idoc.
  • Skúste napísať osnovu BP práce.
  • Nájdite odborný článok na tému "Transformer neural network" a do BP napíšte čo ste sa dozvedeli.
  • Stručne napíšte čo je to knižnica Spacy a ako pracuje. Citujte aspoň jeden odborný článok.
  • Zistite ako by sa dal zlepšiť proces trénovania.

Stretnutie 25.6.2021

  • Vytvorený prístup do repozitára spacy-skmodel na GIThube

Úlohy:

  • Skúste spustiť trénovací skript a natrénovať slovenský spacy model
  • Pozrite si bakalársku prácu Martin Wencel