35 lines
854 B
Markdown
35 lines
854 B
Markdown
---
|
|
title: Anotácia textových dát
|
|
published: true
|
|
taxonomy:
|
|
category: [project]
|
|
tag: [annotation,ner,question-answer,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
# Anotácia textových dát
|
|
|
|
- Natrénovanie štatistického modelu pre spracovanie prirodzeného jazyka zo slovenských dát
|
|
- Manuálna anotácia slovenských dát pre výskyt pomenovaných entít
|
|
|
|
## Postup
|
|
|
|
- Definovanie anotačnej schémy
|
|
- Príprava dátovej množiny vhodnej na anotáciu
|
|
- Natrénovanie štatistického modelu Spacy
|
|
- Príprava anotačnej úlohy Prodigy
|
|
|
|
## Nástroje
|
|
|
|
- Python (príprava dát)
|
|
- Spacy (štatistický model) [Spacy](https://spacy.io/))
|
|
- [Prodigy](https://prodi.gy/) (anotácie)
|
|
|
|
## Riešitelia
|
|
|
|
- Andrej Hopko (BP, ex?)
|
|
- Tomáš Kuchárik (príprava dát z wikipedie)
|
|
- Jakub Maruniak
|
|
- [Cesar Gutierez](/topics/named-entity) (stáž leto 2019)
|
|
|