zz
This commit is contained in:
		
							parent
							
								
									6c2a8ff77b
								
							
						
					
					
						commit
						965d5e7dcd
					
				
							
								
								
									
										45
									
								
								pages/interns/cesar_gutierrez/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										45
									
								
								pages/interns/cesar_gutierrez/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,45 @@ | |||||||
|  | ## Named entity annotations | ||||||
|  | 
 | ||||||
|  | Cesar Abascal Gutierrez <cesarbielva1994@gmail.com> | ||||||
|  | 
 | ||||||
|  | ## Goals | ||||||
|  | 
 | ||||||
|  |   - Be able to recognize unknown named entities | ||||||
|  |   - Create a manually annotated training set from speech transcripts | ||||||
|  |   - Propose an annotation schema | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | ## Plan | ||||||
|  | 
 | ||||||
|  |   - Convert speech transcripts into a training set | ||||||
|  |   - Train and evaluate classifier | ||||||
|  |   - Establish manual annotation  | ||||||
|  |   - Select unannotated data  | ||||||
|  | 
 | ||||||
|  | ### Data preparation | ||||||
|  | 
 | ||||||
|  | Input: Transcriber transcripts with inconsistent annotations | ||||||
|  | 
 | ||||||
|  | ```  | ||||||
|  |  * First small letter: regular word | ||||||
|  |  * Capital: named entity | ||||||
|  |  * ''^^'': faoreign word | ||||||
|  |  * ''@'': noise | ||||||
|  |  * ''_'': multi word expression | ||||||
|  |  * ''/'': pronuncation | ||||||
|  | ``` | ||||||
|  | 
 | ||||||
|  | Output: A file that can be read by `spacy convert` | ||||||
|  | 
 | ||||||
|  | ## People | ||||||
|  | 
 | ||||||
|  | - Cesar Abascal Gutierrez <cesarbielva1994@gmail.com> | ||||||
|  | - Kyryl Kobzar | ||||||
|  | - Ediz Morochovič | ||||||
|  | 
 | ||||||
|  | ## Tools | ||||||
|  | 
 | ||||||
|  | ```  | ||||||
|  |  * Machine learning : https://spacy.io/usage/training | ||||||
|  |  * Manual Annotation : https://prodi.gy/ | ||||||
|  | ``` | ||||||
| @ -6,70 +6,60 @@ title: Pomenované entity | |||||||
| # Pomenované entity | # Pomenované entity | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| ## Goals |  | ||||||
| 
 |  | ||||||
|   - Be able to recognize unknown named entities |  | ||||||
|   - Create a manually annotated training set from speech transcripts |  | ||||||
|   - Propose an annotation schema |  | ||||||
| 
 |  | ||||||
| 
 |  | ||||||
| ## Tasks |  | ||||||
| 
 |  | ||||||
| ### Príprava dát | ### Príprava dát | ||||||
| 
 | 
 | ||||||
| - Parsovanie XML Wiki DUMP | Vstup: Wiki XML dump | ||||||
| - Filter pre vyradenie článkov | Výstup: Korpus dokumentov pre anotáciu | ||||||
| - Ručný výber článkov | 
 | ||||||
|  | urobené: | ||||||
|  | 
 | ||||||
|  | - Parsovanie XML Wiki DUMP https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/wikicorpus | ||||||
|  | 
 | ||||||
|  | urobiť: | ||||||
|  | 
 | ||||||
|  | - Skript pre extrakciu paragrafov. | ||||||
|  | - Filter pre vyradenie článkov a paragrafov. | ||||||
|  | - Ručný výber článkov. | ||||||
| 
 | 
 | ||||||
| ### Príprava anotačnej schémy | ### Príprava anotačnej schémy | ||||||
| 
 | 
 | ||||||
| - Deploymment Prodigy | Výstup: nasadená a pripravená aplikácia na anotovanie | ||||||
| - Konverzia dát do Prodigy | 
 | ||||||
|  | urobené: | ||||||
|  | 
 | ||||||
|  | - Deploymment Prodigy http://skner.tukekemt.xyz | ||||||
|  | - Konverzia dát do Prodigy https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/ner | ||||||
|  | 
 | ||||||
|  | urobiť: | ||||||
|  | 
 | ||||||
| - Anotačný manuál | - Anotačný manuál | ||||||
| - Sada značiek na anotáciu | - Sada značiek na anotáciu | ||||||
| - Podporný model? | - Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset  s podporným modelom. | ||||||
| 
 | 
 | ||||||
| ### Prípravná anotačná dávka | ### Prípravná anotačná dávka | ||||||
| 
 | 
 | ||||||
|  | urobené: | ||||||
|  | 
 | ||||||
|  | - nasadenie aplikácie pre analýzu anotovaných dát http://aksner.tukekemt.xyz | ||||||
|  | 
 | ||||||
|  | https://git.kemt.fei.tuke.sk/dano/annotation/src/branch/master/database_app | ||||||
|  | 
 | ||||||
|  | prebieha: | ||||||
|  | 
 | ||||||
|  | - aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko | ||||||
|  | 
 | ||||||
|  | urobiť: | ||||||
|  | 
 | ||||||
|  | - Anotácia dát | ||||||
|  | - Príprava skriptu na čistenie anotovaných dát | ||||||
|  | 
 | ||||||
| ### Produkčná anotačná dávka | ### Produkčná anotačná dávka | ||||||
| 
 | 
 | ||||||
|  | treba urobiť: | ||||||
|  | 
 | ||||||
| - Motivácia študentov | - Motivácia študentov | ||||||
|  | - Anotácia dát | ||||||
|  | - Analýza anotovaných dát | ||||||
|  | - tvorba korpusu anotovaných dát | ||||||
| 
 | 
 | ||||||
| ### Analýza vykonaných anotácií |  | ||||||
| 
 | 
 | ||||||
| Aplikácia pre analýzu anotácií |  | ||||||
| 
 |  | ||||||
| ## Plan |  | ||||||
| 
 |  | ||||||
|   - Convert speech transcripts into a training set |  | ||||||
|   - Train and evaluate classifier |  | ||||||
|   - Establish manual annotation  |  | ||||||
|   - Select unannotated data  |  | ||||||
| 
 |  | ||||||
| ### Data preparation |  | ||||||
| 
 |  | ||||||
| Input: Transcriber transcripts with inconsistent annotations |  | ||||||
| 
 |  | ||||||
| ```  |  | ||||||
|  * First small letter: regular word |  | ||||||
|  * Capital: named entity |  | ||||||
|  * ''^^'': faoreign word |  | ||||||
|  * ''@'': noise |  | ||||||
|  * ''_'': multi word expression |  | ||||||
|  * ''/'': pronuncation |  | ||||||
| ``` |  | ||||||
| 
 |  | ||||||
| Output: A file that can be read by `spacy convert` |  | ||||||
| 
 |  | ||||||
| ## People |  | ||||||
| 
 |  | ||||||
| - Cesar Abascal Gutierrez <cesarbielva1994@gmail.com> |  | ||||||
| - Kyryl Kobzar |  | ||||||
| - Ediz Morochovič |  | ||||||
| 
 |  | ||||||
| ## Tools |  | ||||||
| 
 |  | ||||||
| ```  |  | ||||||
|  * Machine learning : https://spacy.io/usage/training |  | ||||||
|  * Manual Annotation : https://prodi.gy/ |  | ||||||
| ``` |  | ||||||
|  | |||||||
		Loading…
	
		Reference in New Issue
	
	Block a user