dmytro_ushatenko/pages/students/2022/serhii_yemets
Dnaiel Hladek b9d48f1295 zz
2024-05-16 11:33:37 +02:00
..
README.md zz 2024-05-16 11:33:37 +02:00

title published taxonomy
Serhii Yemets true
category tag author
bp2025
ner
nlp
Daniel Hladek

rok začiatku štúdia: 2022

Bakalárksa práca 2025

Cieľ:

  • Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít.

Do budúcnosti:

  • Vypracovanie webového dema
  • Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).

Úlohy:

  • Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
  • Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
  • Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
  • Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
  • Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slvenský jazyk https://github.com/slovak-nlp/resources

Zásobník úloh:

  • Pripravte viacero korpusov pre NER. Môžu byť aj viacjazyčné.
  • Natrénujte model Huggingface pre NER