2019-11-19 12:07:02 +00:00
|
|
|
---
|
|
|
|
title: Anotácia textových dát
|
|
|
|
published: true
|
2020-10-01 14:05:57 +00:00
|
|
|
taxonomy:
|
|
|
|
category: [project]
|
|
|
|
tag: [annotation,ner,question-answer,nlp]
|
|
|
|
author: Daniel Hladek
|
2019-11-19 12:07:02 +00:00
|
|
|
---
|
|
|
|
|
|
|
|
# Anotácia textových dát
|
|
|
|
|
|
|
|
- Natrénovanie štatistického modelu pre spracovanie prirodzeného jazyka zo slovenských dát
|
|
|
|
- Manuálna anotácia slovenských dát pre výskyt pomenovaných entít
|
|
|
|
|
|
|
|
## Postup
|
|
|
|
|
|
|
|
- Definovanie anotačnej schémy
|
|
|
|
- Príprava dátovej množiny vhodnej na anotáciu
|
|
|
|
- Natrénovanie štatistického modelu Spacy
|
|
|
|
- Príprava anotačnej úlohy Prodigy
|
|
|
|
|
|
|
|
## Nástroje
|
|
|
|
|
|
|
|
- Python (príprava dát)
|
|
|
|
- Spacy (štatistický model) [Spacy](https://spacy.io/))
|
|
|
|
- [Prodigy](https://prodi.gy/) (anotácie)
|
|
|
|
|
|
|
|
## Riešitelia
|
|
|
|
|
2020-04-16 14:03:26 +00:00
|
|
|
- Andrej Hopko (BP, ex?)
|
|
|
|
- Tomáš Kuchárik (príprava dát z wikipedie)
|
2019-11-19 12:07:02 +00:00
|
|
|
- Jakub Maruniak
|
2020-01-25 16:23:44 +00:00
|
|
|
- [Cesar Gutierez](/topics/named-entity) (stáž leto 2019)
|
2019-11-19 12:07:02 +00:00
|
|
|
|