forked from KEMT/zpwiki
		
	zz
This commit is contained in:
		
							parent
							
								
									6c2a8ff77b
								
							
						
					
					
						commit
						965d5e7dcd
					
				
							
								
								
									
										45
									
								
								pages/interns/cesar_gutierrez/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										45
									
								
								pages/interns/cesar_gutierrez/README.md
									
									
									
									
									
										Normal file
									
								
							@ -0,0 +1,45 @@
 | 
				
			|||||||
 | 
					## Named entity annotations
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					## Goals
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					  - Be able to recognize unknown named entities
 | 
				
			||||||
 | 
					  - Create a manually annotated training set from speech transcripts
 | 
				
			||||||
 | 
					  - Propose an annotation schema
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					## Plan
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					  - Convert speech transcripts into a training set
 | 
				
			||||||
 | 
					  - Train and evaluate classifier
 | 
				
			||||||
 | 
					  - Establish manual annotation 
 | 
				
			||||||
 | 
					  - Select unannotated data 
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					### Data preparation
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Input: Transcriber transcripts with inconsistent annotations
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					``` 
 | 
				
			||||||
 | 
					 * First small letter: regular word
 | 
				
			||||||
 | 
					 * Capital: named entity
 | 
				
			||||||
 | 
					 * ''^^'': faoreign word
 | 
				
			||||||
 | 
					 * ''@'': noise
 | 
				
			||||||
 | 
					 * ''_'': multi word expression
 | 
				
			||||||
 | 
					 * ''/'': pronuncation
 | 
				
			||||||
 | 
					```
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					Output: A file that can be read by `spacy convert`
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					## People
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
 | 
				
			||||||
 | 
					- Kyryl Kobzar
 | 
				
			||||||
 | 
					- Ediz Morochovič
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					## Tools
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					``` 
 | 
				
			||||||
 | 
					 * Machine learning : https://spacy.io/usage/training
 | 
				
			||||||
 | 
					 * Manual Annotation : https://prodi.gy/
 | 
				
			||||||
 | 
					```
 | 
				
			||||||
@ -6,70 +6,60 @@ title: Pomenované entity
 | 
				
			|||||||
# Pomenované entity
 | 
					# Pomenované entity
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
## Goals
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
  - Be able to recognize unknown named entities
 | 
					 | 
				
			||||||
  - Create a manually annotated training set from speech transcripts
 | 
					 | 
				
			||||||
  - Propose an annotation schema
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
## Tasks
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
### Príprava dát
 | 
					### Príprava dát
 | 
				
			||||||
 | 
					
 | 
				
			||||||
- Parsovanie XML Wiki DUMP
 | 
					Vstup: Wiki XML dump
 | 
				
			||||||
- Filter pre vyradenie článkov
 | 
					Výstup: Korpus dokumentov pre anotáciu
 | 
				
			||||||
- Ručný výber článkov
 | 
					
 | 
				
			||||||
 | 
					urobené:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Parsovanie XML Wiki DUMP https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					urobiť:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Skript pre extrakciu paragrafov.
 | 
				
			||||||
 | 
					- Filter pre vyradenie článkov a paragrafov.
 | 
				
			||||||
 | 
					- Ručný výber článkov.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
### Príprava anotačnej schémy
 | 
					### Príprava anotačnej schémy
 | 
				
			||||||
 | 
					
 | 
				
			||||||
- Deploymment Prodigy
 | 
					Výstup: nasadená a pripravená aplikácia na anotovanie
 | 
				
			||||||
- Konverzia dát do Prodigy
 | 
					
 | 
				
			||||||
 | 
					urobené:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Deploymment Prodigy http://skner.tukekemt.xyz
 | 
				
			||||||
 | 
					- Konverzia dát do Prodigy https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					urobiť:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
- Anotačný manuál
 | 
					- Anotačný manuál
 | 
				
			||||||
- Sada značiek na anotáciu
 | 
					- Sada značiek na anotáciu
 | 
				
			||||||
- Podporný model?
 | 
					- Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset  s podporným modelom.
 | 
				
			||||||
 | 
					
 | 
				
			||||||
### Prípravná anotačná dávka
 | 
					### Prípravná anotačná dávka
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					urobené:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					prebieha:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					urobiť:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					- Anotácia dát
 | 
				
			||||||
 | 
					- Príprava skriptu na čistenie anotovaných dát
 | 
				
			||||||
 | 
					
 | 
				
			||||||
### Produkčná anotačná dávka
 | 
					### Produkčná anotačná dávka
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					treba urobiť:
 | 
				
			||||||
 | 
					
 | 
				
			||||||
- Motivácia študentov
 | 
					- Motivácia študentov
 | 
				
			||||||
 | 
					- Anotácia dát
 | 
				
			||||||
 | 
					- Analýza anotovaných dát
 | 
				
			||||||
 | 
					- tvorba korpusu anotovaných dát
 | 
				
			||||||
 | 
					
 | 
				
			||||||
### Analýza vykonaných anotácií
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
Aplikácia pre analýzu anotácií
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
## Plan
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
  - Convert speech transcripts into a training set
 | 
					 | 
				
			||||||
  - Train and evaluate classifier
 | 
					 | 
				
			||||||
  - Establish manual annotation 
 | 
					 | 
				
			||||||
  - Select unannotated data 
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
### Data preparation
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
Input: Transcriber transcripts with inconsistent annotations
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
``` 
 | 
					 | 
				
			||||||
 * First small letter: regular word
 | 
					 | 
				
			||||||
 * Capital: named entity
 | 
					 | 
				
			||||||
 * ''^^'': faoreign word
 | 
					 | 
				
			||||||
 * ''@'': noise
 | 
					 | 
				
			||||||
 * ''_'': multi word expression
 | 
					 | 
				
			||||||
 * ''/'': pronuncation
 | 
					 | 
				
			||||||
```
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
Output: A file that can be read by `spacy convert`
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
## People
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
- Cesar Abascal Gutierrez <cesarbielva1994@gmail.com>
 | 
					 | 
				
			||||||
- Kyryl Kobzar
 | 
					 | 
				
			||||||
- Ediz Morochovič
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
## Tools
 | 
					 | 
				
			||||||
 | 
					 | 
				
			||||||
``` 
 | 
					 | 
				
			||||||
 * Machine learning : https://spacy.io/usage/training
 | 
					 | 
				
			||||||
 * Manual Annotation : https://prodi.gy/
 | 
					 | 
				
			||||||
```
 | 
					 | 
				
			||||||
 | 
				
			|||||||
		Loading…
	
		Reference in New Issue
	
	Block a user