2024-05-16 09:33:37 +00:00
|
|
|
---
|
|
|
|
title: Serhii Yemets
|
|
|
|
published: true
|
|
|
|
taxonomy:
|
|
|
|
category: [bp2025]
|
|
|
|
tag: [ner,nlp]
|
|
|
|
author: Daniel Hladek
|
|
|
|
---
|
|
|
|
|
|
|
|
|
|
|
|
rok začiatku štúdia: 2022
|
|
|
|
|
|
|
|
# Bakalárksa práca 2025
|
|
|
|
|
|
|
|
|
2024-10-30 11:51:04 +00:00
|
|
|
|
2024-05-16 09:33:37 +00:00
|
|
|
Cieľ:
|
|
|
|
|
|
|
|
- Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít.
|
|
|
|
|
|
|
|
Do budúcnosti:
|
|
|
|
|
|
|
|
- Vypracovanie webového dema
|
|
|
|
- Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).
|
|
|
|
|
2024-10-30 11:51:04 +00:00
|
|
|
Stretnutie 30.10.2024
|
|
|
|
|
|
|
|
Stav:
|
|
|
|
|
|
|
|
- Napísané texty o NE.
|
|
|
|
- Vyskúšané a naštudované veci podľa pokynov,
|
|
|
|
- Začiatok práce na webovom deme.
|
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
|
|
|
- Vyberte korpusy s NER pre slovenský jazyk
|
|
|
|
|
|
|
|
|
|
|
|
Stretnutie 20.5.20204
|
2024-05-16 09:33:37 +00:00
|
|
|
|
|
|
|
Úlohy:
|
|
|
|
|
2024-10-30 11:51:04 +00:00
|
|
|
- [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
|
|
|
|
- [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
|
|
|
|
- [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
|
|
|
|
- [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
|
|
|
|
- [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources
|
2024-05-16 09:33:37 +00:00
|
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
|
|
|
|
- Pripravte viacero korpusov pre NER. Môžu byť aj viacjazyčné.
|
|
|
|
- Natrénujte model Huggingface pre NER
|
|
|
|
|
|
|
|
|