zz

2020-07-01 18:37:29 +02:00 · 2020-07-01 18:27:35 +02:00
2 changed files with 114 additions and 54 deletions
--- a/pages/interns/cesar_gutierrez/README.md
+++ b/pages/interns/cesar_gutierrez/README.md
@ -0,0 +1,45 @@
+## Named entity annotations
+
+Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
+
+## Goals
+
+  - Be able to recognize unknown named entities
+  - Create a manually annotated training set from speech transcripts
+  - Propose an annotation schema
+
+
+## Plan
+
+  - Convert speech transcripts into a training set
+  - Train and evaluate classifier
+  - Establish manual annotation 
+  - Select unannotated data 
+
+### Data preparation
+
+Input: Transcriber transcripts with inconsistent annotations
+
+``` 
+ * First small letter: regular word
+ * Capital: named entity
+ * ''^^'': faoreign word
+ * ''@'': noise
+ * ''_'': multi word expression
+ * ''/'': pronuncation
+```
+
+Output: A file that can be read by `spacy convert`
+
+## People
+
+- Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
+- Kyryl Kobzar
+- Ediz Morochovič
+
+## Tools
+
+``` 
+ * Machine learning : https://spacy.io/usage/training
+ * Manual Annotation : https://prodi.gy/
+```
--- a/pages/topics/named-entity/README.md
+++ b/pages/topics/named-entity/README.md
@ -2,74 +2,89 @@
 title: Pomenované entity
 ---

-
 # Pomenované entity

-
-## Goals
-
-  - Be able to recognize unknown named entities
-  - Create a manually annotated training set from speech transcripts
-  - Propose an annotation schema
-
-
-## Tasks
-
 ### Príprava dát

- Parsovanie XML Wiki DUMP
- Filter pre vyradenie článkov
- Ručný výber článkov
+[Repozitár annotation/wikiparse](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikiparse)
+
+Vstup: Wiki XML dump
+
+Výstup: Množina dokumentov pre anotáciu
+
+
+urobené:
+
+- Parsovanie XML Wiki DUMP 
+
+urobiť:
+
+- Skript pre extrakciu paragrafov.
+- Filter pre vyradenie článkov a paragrafov.
+- Ručný výber článkov.

 ### Príprava anotačnej schémy

- Deploymment Prodigy
- Konverzia dát do Prodigy
+Vstup: dataset na anotovanie
+
+Výstup: nasadená a pripravená aplikácia na anotovanie
+
+[Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)
+
+urobené:
+
+- [Deploymment Prodigy](http://skner.tukekemt.xyz)
+- Konverzia dát do Prodigy 
+
+urobiť:
+
 - Anotačný manuál
 - Sada značiek na anotáciu
- Podporný model?
+- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
+- Pripraviť podrobné anotovanie "development" množiny

 ### Prípravná anotačná dávka

+[Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)
+
+Vstup:
+
+- pripravená aplikácia pre anotovanie
+
+Výstup:
+
+- prvé anotované dáta
+- aplikácia pre analýzu anotovaných dát
+- skript pre spájanie a filtrovanie anotovaných dát
+
+
+urobené:
+
+- nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz
+
+prebieha:
+
+- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko
+
+urobiť:
+
+- Anotácia dát
+- Príprava skriptu na čistenie anotovaných dát
+
 ### Produkčná anotačná dávka

+Vstup: Pripravená aplikácia a dáta na anotovanie
+
+Výstup: 
+
+- Anotované dáta
+- korpus
+
+treba urobiť:
+
 - Motivácia študentov
+- Anotácia dát
+- Analýza anotovaných dát
+- tvorba korpusu anotovaných dát

-### Analýza vykonaných anotácií

-Aplikácia pre analýzu anotácií
-
-## Plan
-
-  - Convert speech transcripts into a training set
-  - Train and evaluate classifier
-  - Establish manual annotation 
-  - Select unannotated data 
-
-### Data preparation
-
-Input: Transcriber transcripts with inconsistent annotations
-
-``` 
- * First small letter: regular word
- * Capital: named entity
- * ''^^'': faoreign word
- * ''@'': noise
- * ''_'': multi word expression
- * ''/'': pronuncation
-```
-
-Output: A file that can be read by `spacy convert`
-
-## People
-
- Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
- Kyryl Kobzar
- Ediz Morochovič
-
-## Tools
-
-``` 
- * Machine learning : https://spacy.io/usage/training
- * Manual Annotation : https://prodi.gy/
-```
Author	SHA1	Message	Date
Daniel Hladek	a27cbe2f7a	zz	2020-07-01 18:37:29 +02:00
Daniel Hladek	965d5e7dcd	zz	2020-07-01 18:27:35 +02:00