2 changed files with 54 additions and 114 deletions
--- a/pages/interns/cesar_gutierrez/README.md
+++ b/pages/interns/cesar_gutierrez/README.md
@ -1,45 +0,0 @@
 ## Named entity annotations
 Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
 ## Goals
  - Be able to recognize unknown named entities
  - Create a manually annotated training set from speech transcripts
  - Propose an annotation schema
 ## Plan
  - Convert speech transcripts into a training set
  - Train and evaluate classifier
  - Establish manual annotation 
  - Select unannotated data 
 ### Data preparation
 Input: Transcriber transcripts with inconsistent annotations
 ``` 
 * First small letter: regular word
 * Capital: named entity
 * ''^^'': faoreign word
 * ''@'': noise
 * ''_'': multi word expression
 * ''/'': pronuncation
 ```
 Output: A file that can be read by `spacy convert`
 ## People
 - Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
 - Kyryl Kobzar
 - Ediz Morochovič
 ## Tools
 ``` 
 * Machine learning : https://spacy.io/usage/training
 * Manual Annotation : https://prodi.gy/
 ```
--- a/pages/topics/named-entity/README.md
+++ b/pages/topics/named-entity/README.md
@ -2,89 +2,74 @@
 title: Pomenované entity
 ---
 # Pomenované entity
 ## Goals
  - Be able to recognize unknown named entities
  - Create a manually annotated training set from speech transcripts
  - Propose an annotation schema
 ## Tasks
 ### Príprava dát
 [Repozitár annotation/wikiparse](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikiparse)
 Vstup: Wiki XML dump
 Výstup: Množina dokumentov pre anotáciu
 urobené:
 - Parsovanie XML Wiki DUMP
-
+- Filter pre vyradenie článkov
-urobiť:
+- Ručný výber článkov
 - Skript pre extrakciu paragrafov.
 - Filter pre vyradenie článkov a paragrafov.
 - Ručný výber článkov.
 ### Príprava anotačnej schémy
-Vstup: dataset na anotovanie
+- Deploymment Prodigy
 Výstup: nasadená a pripravená aplikácia na anotovanie
 [Repozitár annotation/ner](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner)
 urobené:
 - [Deploymment Prodigy](http://skner.tukekemt.xyz)
 - Konverzia dát do Prodigy
 urobiť:
 - Anotačný manuál
 - Sada značiek na anotáciu
- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
+- Podporný model?
 - Pripraviť podrobné anotovanie "development" množiny
 ### Prípravná anotačná dávka
 [Repozitár annotation/database_app](https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app)
 Vstup:
 - pripravená aplikácia pre anotovanie
 Výstup:
 - prvé anotované dáta
 - aplikácia pre analýzu anotovaných dát
 - skript pre spájanie a filtrovanie anotovaných dát
 urobené:
 - nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz
 prebieha:
 - aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko
 urobiť:
 - Anotácia dát
 - Príprava skriptu na čistenie anotovaných dát
 ### Produkčná anotačná dávka
 Vstup: Pripravená aplikácia a dáta na anotovanie
 Výstup: 
 - Anotované dáta
 - korpus
 treba urobiť:
 - Motivácia študentov
 - Anotácia dát
 - Analýza anotovaných dát
 - tvorba korpusu anotovaných dát
 ### Analýza vykonaných anotácií
 Aplikácia pre analýzu anotácií
 ## Plan
  - Convert speech transcripts into a training set
  - Train and evaluate classifier
  - Establish manual annotation 
  - Select unannotated data 
 ### Data preparation
 Input: Transcriber transcripts with inconsistent annotations
 ``` 
 * First small letter: regular word
 * Capital: named entity
 * ''^^'': faoreign word
 * ''@'': noise
 * ''_'': multi word expression
 * ''/'': pronuncation
 ```
 Output: A file that can be read by `spacy convert`
 ## People
 - Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
 - Kyryl Kobzar
 - Ediz Morochovič
 ## Tools
 ``` 
 * Machine learning : https://spacy.io/usage/training
 * Manual Annotation : https://prodi.gy/
 ```