Compare commits
2 Commits
6c2a8ff77b
...
a27cbe2f7a
Author | SHA1 | Date | |
---|---|---|---|
a27cbe2f7a | |||
965d5e7dcd |
45
pages/interns/cesar_gutierrez/README.md
Normal file
45
pages/interns/cesar_gutierrez/README.md
Normal file
@ -0,0 +1,45 @@
|
||||
## Named entity annotations
|
||||
|
||||
Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
|
||||
|
||||
## Goals
|
||||
|
||||
- Be able to recognize unknown named entities
|
||||
- Create a manually annotated training set from speech transcripts
|
||||
- Propose an annotation schema
|
||||
|
||||
|
||||
## Plan
|
||||
|
||||
- Convert speech transcripts into a training set
|
||||
- Train and evaluate classifier
|
||||
- Establish manual annotation
|
||||
- Select unannotated data
|
||||
|
||||
### Data preparation
|
||||
|
||||
Input: Transcriber transcripts with inconsistent annotations
|
||||
|
||||
```
|
||||
* First small letter: regular word
|
||||
* Capital: named entity
|
||||
* ''^^'': faoreign word
|
||||
* ''@'': noise
|
||||
* ''_'': multi word expression
|
||||
* ''/'': pronuncation
|
||||
```
|
||||
|
||||
Output: A file that can be read by `spacy convert`
|
||||
|
||||
## People
|
||||
|
||||
- Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
|
||||
- Kyryl Kobzar
|
||||
- Ediz Morochovič
|
||||
|
||||
## Tools
|
||||
|
||||
```
|
||||
* Machine learning : https://spacy.io/usage/training
|
||||
* Manual Annotation : https://prodi.gy/
|
||||
```
|
@ -2,74 +2,89 @@
|
||||
title: Pomenované entity
|
||||
---
|
||||
|
||||
|
||||
# Pomenované entity
|
||||
|
||||
|
||||
## Goals
|
||||
|
||||
- Be able to recognize unknown named entities
|
||||
- Create a manually annotated training set from speech transcripts
|
||||
- Propose an annotation schema
|
||||
|
||||
|
||||
## Tasks
|
||||
|
||||
### Príprava dát
|
||||
|
||||
- Parsovanie XML Wiki DUMP
|
||||
- Filter pre vyradenie článkov
|
||||
- Ručný výber článkov
|
||||
[Repozitár annotation/wikiparse](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikiparse)
|
||||
|
||||
Vstup: Wiki XML dump
|
||||
|
||||
Výstup: Množina dokumentov pre anotáciu
|
||||
|
||||
|
||||
urobené:
|
||||
|
||||
- Parsovanie XML Wiki DUMP
|
||||
|
||||
urobiť:
|
||||
|
||||
- Skript pre extrakciu paragrafov.
|
||||
- Filter pre vyradenie článkov a paragrafov.
|
||||
- Ručný výber článkov.
|
||||
|
||||
### Príprava anotačnej schémy
|
||||
|
||||
- Deploymment Prodigy
|
||||
- Konverzia dát do Prodigy
|
||||
Vstup: dataset na anotovanie
|
||||
|
||||
Výstup: nasadená a pripravená aplikácia na anotovanie
|
||||
|
||||
[Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)
|
||||
|
||||
urobené:
|
||||
|
||||
- [Deploymment Prodigy](http://skner.tukekemt.xyz)
|
||||
- Konverzia dát do Prodigy
|
||||
|
||||
urobiť:
|
||||
|
||||
- Anotačný manuál
|
||||
- Sada značiek na anotáciu
|
||||
- Podporný model?
|
||||
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
|
||||
- Pripraviť podrobné anotovanie "development" množiny
|
||||
|
||||
### Prípravná anotačná dávka
|
||||
|
||||
[Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)
|
||||
|
||||
Vstup:
|
||||
|
||||
- pripravená aplikácia pre anotovanie
|
||||
|
||||
Výstup:
|
||||
|
||||
- prvé anotované dáta
|
||||
- aplikácia pre analýzu anotovaných dát
|
||||
- skript pre spájanie a filtrovanie anotovaných dát
|
||||
|
||||
|
||||
urobené:
|
||||
|
||||
- nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz
|
||||
|
||||
prebieha:
|
||||
|
||||
- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko
|
||||
|
||||
urobiť:
|
||||
|
||||
- Anotácia dát
|
||||
- Príprava skriptu na čistenie anotovaných dát
|
||||
|
||||
### Produkčná anotačná dávka
|
||||
|
||||
Vstup: Pripravená aplikácia a dáta na anotovanie
|
||||
|
||||
Výstup:
|
||||
|
||||
- Anotované dáta
|
||||
- korpus
|
||||
|
||||
treba urobiť:
|
||||
|
||||
- Motivácia študentov
|
||||
- Anotácia dát
|
||||
- Analýza anotovaných dát
|
||||
- tvorba korpusu anotovaných dát
|
||||
|
||||
### Analýza vykonaných anotácií
|
||||
|
||||
Aplikácia pre analýzu anotácií
|
||||
|
||||
## Plan
|
||||
|
||||
- Convert speech transcripts into a training set
|
||||
- Train and evaluate classifier
|
||||
- Establish manual annotation
|
||||
- Select unannotated data
|
||||
|
||||
### Data preparation
|
||||
|
||||
Input: Transcriber transcripts with inconsistent annotations
|
||||
|
||||
```
|
||||
* First small letter: regular word
|
||||
* Capital: named entity
|
||||
* ''^^'': faoreign word
|
||||
* ''@'': noise
|
||||
* ''_'': multi word expression
|
||||
* ''/'': pronuncation
|
||||
```
|
||||
|
||||
Output: A file that can be read by `spacy convert`
|
||||
|
||||
## People
|
||||
|
||||
- Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
|
||||
- Kyryl Kobzar
|
||||
- Ediz Morochovič
|
||||
|
||||
## Tools
|
||||
|
||||
```
|
||||
* Machine learning : https://spacy.io/usage/training
|
||||
* Manual Annotation : https://prodi.gy/
|
||||
```
|
||||
|
Loading…
Reference in New Issue
Block a user