Compare commits
No commits in common. "a27cbe2f7a434de477706afbef60b84da6a132cf" and "6c2a8ff77b046940bf52e0f53c159eb3a13ad1a9" have entirely different histories.
a27cbe2f7a
...
6c2a8ff77b
@ -1,45 +0,0 @@
|
|||||||
## Named entity annotations
|
|
||||||
|
|
||||||
Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
|
|
||||||
|
|
||||||
## Goals
|
|
||||||
|
|
||||||
- Be able to recognize unknown named entities
|
|
||||||
- Create a manually annotated training set from speech transcripts
|
|
||||||
- Propose an annotation schema
|
|
||||||
|
|
||||||
|
|
||||||
## Plan
|
|
||||||
|
|
||||||
- Convert speech transcripts into a training set
|
|
||||||
- Train and evaluate classifier
|
|
||||||
- Establish manual annotation
|
|
||||||
- Select unannotated data
|
|
||||||
|
|
||||||
### Data preparation
|
|
||||||
|
|
||||||
Input: Transcriber transcripts with inconsistent annotations
|
|
||||||
|
|
||||||
```
|
|
||||||
* First small letter: regular word
|
|
||||||
* Capital: named entity
|
|
||||||
* ''^^'': faoreign word
|
|
||||||
* ''@'': noise
|
|
||||||
* ''_'': multi word expression
|
|
||||||
* ''/'': pronuncation
|
|
||||||
```
|
|
||||||
|
|
||||||
Output: A file that can be read by `spacy convert`
|
|
||||||
|
|
||||||
## People
|
|
||||||
|
|
||||||
- Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
|
|
||||||
- Kyryl Kobzar
|
|
||||||
- Ediz Morochovič
|
|
||||||
|
|
||||||
## Tools
|
|
||||||
|
|
||||||
```
|
|
||||||
* Machine learning : https://spacy.io/usage/training
|
|
||||||
* Manual Annotation : https://prodi.gy/
|
|
||||||
```
|
|
@ -2,89 +2,74 @@
|
|||||||
title: Pomenované entity
|
title: Pomenované entity
|
||||||
---
|
---
|
||||||
|
|
||||||
|
|
||||||
# Pomenované entity
|
# Pomenované entity
|
||||||
|
|
||||||
|
|
||||||
|
## Goals
|
||||||
|
|
||||||
|
- Be able to recognize unknown named entities
|
||||||
|
- Create a manually annotated training set from speech transcripts
|
||||||
|
- Propose an annotation schema
|
||||||
|
|
||||||
|
|
||||||
|
## Tasks
|
||||||
|
|
||||||
### Príprava dát
|
### Príprava dát
|
||||||
|
|
||||||
[Repozitár annotation/wikiparse](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikiparse)
|
|
||||||
|
|
||||||
Vstup: Wiki XML dump
|
|
||||||
|
|
||||||
Výstup: Množina dokumentov pre anotáciu
|
|
||||||
|
|
||||||
|
|
||||||
urobené:
|
|
||||||
|
|
||||||
- Parsovanie XML Wiki DUMP
|
- Parsovanie XML Wiki DUMP
|
||||||
|
- Filter pre vyradenie článkov
|
||||||
urobiť:
|
- Ručný výber článkov
|
||||||
|
|
||||||
- Skript pre extrakciu paragrafov.
|
|
||||||
- Filter pre vyradenie článkov a paragrafov.
|
|
||||||
- Ručný výber článkov.
|
|
||||||
|
|
||||||
### Príprava anotačnej schémy
|
### Príprava anotačnej schémy
|
||||||
|
|
||||||
Vstup: dataset na anotovanie
|
- Deploymment Prodigy
|
||||||
|
|
||||||
Výstup: nasadená a pripravená aplikácia na anotovanie
|
|
||||||
|
|
||||||
[Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)
|
|
||||||
|
|
||||||
urobené:
|
|
||||||
|
|
||||||
- [Deploymment Prodigy](http://skner.tukekemt.xyz)
|
|
||||||
- Konverzia dát do Prodigy
|
- Konverzia dát do Prodigy
|
||||||
|
|
||||||
urobiť:
|
|
||||||
|
|
||||||
- Anotačný manuál
|
- Anotačný manuál
|
||||||
- Sada značiek na anotáciu
|
- Sada značiek na anotáciu
|
||||||
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
|
- Podporný model?
|
||||||
- Pripraviť podrobné anotovanie "development" množiny
|
|
||||||
|
|
||||||
### Prípravná anotačná dávka
|
### Prípravná anotačná dávka
|
||||||
|
|
||||||
[Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)
|
|
||||||
|
|
||||||
Vstup:
|
|
||||||
|
|
||||||
- pripravená aplikácia pre anotovanie
|
|
||||||
|
|
||||||
Výstup:
|
|
||||||
|
|
||||||
- prvé anotované dáta
|
|
||||||
- aplikácia pre analýzu anotovaných dát
|
|
||||||
- skript pre spájanie a filtrovanie anotovaných dát
|
|
||||||
|
|
||||||
|
|
||||||
urobené:
|
|
||||||
|
|
||||||
- nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz
|
|
||||||
|
|
||||||
prebieha:
|
|
||||||
|
|
||||||
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko
|
|
||||||
|
|
||||||
urobiť:
|
|
||||||
|
|
||||||
- Anotácia dát
|
|
||||||
- Príprava skriptu na čistenie anotovaných dát
|
|
||||||
|
|
||||||
### Produkčná anotačná dávka
|
### Produkčná anotačná dávka
|
||||||
|
|
||||||
Vstup: Pripravená aplikácia a dáta na anotovanie
|
|
||||||
|
|
||||||
Výstup:
|
|
||||||
|
|
||||||
- Anotované dáta
|
|
||||||
- korpus
|
|
||||||
|
|
||||||
treba urobiť:
|
|
||||||
|
|
||||||
- Motivácia študentov
|
- Motivácia študentov
|
||||||
- Anotácia dát
|
|
||||||
- Analýza anotovaných dát
|
|
||||||
- tvorba korpusu anotovaných dát
|
|
||||||
|
|
||||||
|
### Analýza vykonaných anotácií
|
||||||
|
|
||||||
|
Aplikácia pre analýzu anotácií
|
||||||
|
|
||||||
|
## Plan
|
||||||
|
|
||||||
|
- Convert speech transcripts into a training set
|
||||||
|
- Train and evaluate classifier
|
||||||
|
- Establish manual annotation
|
||||||
|
- Select unannotated data
|
||||||
|
|
||||||
|
### Data preparation
|
||||||
|
|
||||||
|
Input: Transcriber transcripts with inconsistent annotations
|
||||||
|
|
||||||
|
```
|
||||||
|
* First small letter: regular word
|
||||||
|
* Capital: named entity
|
||||||
|
* ''^^'': faoreign word
|
||||||
|
* ''@'': noise
|
||||||
|
* ''_'': multi word expression
|
||||||
|
* ''/'': pronuncation
|
||||||
|
```
|
||||||
|
|
||||||
|
Output: A file that can be read by `spacy convert`
|
||||||
|
|
||||||
|
## People
|
||||||
|
|
||||||
|
- Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
|
||||||
|
- Kyryl Kobzar
|
||||||
|
- Ediz Morochovič
|
||||||
|
|
||||||
|
## Tools
|
||||||
|
|
||||||
|
```
|
||||||
|
* Machine learning : https://spacy.io/usage/training
|
||||||
|
* Manual Annotation : https://prodi.gy/
|
||||||
|
```
|
||||||
|
Loading…
Reference in New Issue
Block a user