zz

2020-07-01 18:37:29 +02:00 · 2020-07-01 18:27:35 +02:00
2 changed files with 114 additions and 54 deletions
--- a/pages/interns/cesar_gutierrez/README.md
+++ b/pages/interns/cesar_gutierrez/README.md
@ -0,0 +1,45 @@
 ## Named entity annotations
 Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
 ## Goals
  - Be able to recognize unknown named entities
  - Create a manually annotated training set from speech transcripts
  - Propose an annotation schema
 ## Plan
  - Convert speech transcripts into a training set
  - Train and evaluate classifier
  - Establish manual annotation 
  - Select unannotated data 
 ### Data preparation
 Input: Transcriber transcripts with inconsistent annotations
 ``` 
 * First small letter: regular word
 * Capital: named entity
 * ''^^'': faoreign word
 * ''@'': noise
 * ''_'': multi word expression
 * ''/'': pronuncation
 ```
 Output: A file that can be read by `spacy convert`
 ## People
 - Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
 - Kyryl Kobzar
 - Ediz Morochovič
 ## Tools
 ``` 
 * Machine learning : https://spacy.io/usage/training
 * Manual Annotation : https://prodi.gy/
 ```
--- a/pages/topics/named-entity/README.md
+++ b/pages/topics/named-entity/README.md
@ -2,74 +2,89 @@
 title: Pomenované entity
 ---
 # Pomenované entity
 ## Goals
  - Be able to recognize unknown named entities
  - Create a manually annotated training set from speech transcripts
  - Propose an annotation schema
 ## Tasks
 ### Príprava dát
- Parsovanie XML Wiki DUMP
+[Repozitár annotation/wikiparse](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikiparse)
- Filter pre vyradenie článkov
+
- Ručný výber článkov
+Vstup: Wiki XML dump
 Výstup: Množina dokumentov pre anotáciu
 urobené:
 - Parsovanie XML Wiki DUMP 
 urobiť:
 - Skript pre extrakciu paragrafov.
 - Filter pre vyradenie článkov a paragrafov.
 - Ručný výber článkov.
 ### Príprava anotačnej schémy
- Deploymment Prodigy
+Vstup: dataset na anotovanie
- Konverzia dát do Prodigy
+
 Výstup: nasadená a pripravená aplikácia na anotovanie
 [Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)
 urobené:
 - [Deploymment Prodigy](http://skner.tukekemt.xyz)
 - Konverzia dát do Prodigy 
 urobiť:
 - Anotačný manuál
 - Sada značiek na anotáciu
- Podporný model?
+- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
 - Pripraviť podrobné anotovanie "development" množiny
 ### Prípravná anotačná dávka
 [Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)
 Vstup:
 - pripravená aplikácia pre anotovanie
 Výstup:
 - prvé anotované dáta
 - aplikácia pre analýzu anotovaných dát
 - skript pre spájanie a filtrovanie anotovaných dát
 urobené:
 - nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz
 prebieha:
 - aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko
 urobiť:
 - Anotácia dát
 - Príprava skriptu na čistenie anotovaných dát
 ### Produkčná anotačná dávka
 Vstup: Pripravená aplikácia a dáta na anotovanie
 Výstup: 
 - Anotované dáta
 - korpus
 treba urobiť:
 - Motivácia študentov
 - Anotácia dát
 - Analýza anotovaných dát
 - tvorba korpusu anotovaných dát
 ### Analýza vykonaných anotácií
 Aplikácia pre analýzu anotácií
 ## Plan
  - Convert speech transcripts into a training set
  - Train and evaluate classifier
  - Establish manual annotation 
  - Select unannotated data 
 ### Data preparation
 Input: Transcriber transcripts with inconsistent annotations
 ``` 
 * First small letter: regular word
 * Capital: named entity
 * ''^^'': faoreign word
 * ''@'': noise
 * ''_'': multi word expression
 * ''/'': pronuncation
 ```
 Output: A file that can be read by `spacy convert`
 ## People
 - Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
 - Kyryl Kobzar
 - Ediz Morochovič
 ## Tools
 ``` 
 * Machine learning : https://spacy.io/usage/training
 * Manual Annotation : https://prodi.gy/
 ```
Author	SHA1	Message	Date
Daniel Hladek	a27cbe2f7a	zz	2020-07-01 18:37:29 +02:00
Daniel Hladek	965d5e7dcd	zz	2020-07-01 18:27:35 +02:00