forked from KEMT/zpwiki
		
	zz
This commit is contained in:
		
							parent
							
								
									e8ff9c3e7d
								
							
						
					
					
						commit
						ef3c214738
					
				
							
								
								
									
										55
									
								
								pages/topics/bert/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										55
									
								
								pages/topics/bert/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,55 @@ | |||||||
|  | --- | ||||||
|  | title: Jazykový model slovenského jazyka | ||||||
|  | published: true | ||||||
|  | author: Daniel Hládek | ||||||
|  | --- | ||||||
|  | 
 | ||||||
|  | ! Cieľ: | ||||||
|  | ! | ||||||
|  | ! - Natrénovať a slovenský jazykový model typu BERT z korpusu webových textov | ||||||
|  | ! - Vyhodnotiť jazykový model dotrénovaním na úlohách: | ||||||
|  | !    - SK-QUAD 2.0 | ||||||
|  | !    - POS z Slovak Treebank | ||||||
|  | !    - kategórie zo Slovak Categorized news Corpus | ||||||
|  | 
 | ||||||
|  | ## Súvisiace projekty | ||||||
|  | 
 | ||||||
|  | - [SlovakBERT](https://github.com/gerulata/slovakbert) od Kinit, a [článok](https://arxiv.org/abs/2109.15254) | ||||||
|  | - [SK Quad](/topics/question) - Slovak Question Answering Dataset  | ||||||
|  | - bakalárska práca [Ondrej Megela](/students/) | ||||||
|  | 
 | ||||||
|  | ## Hotové úlohy | ||||||
|  | 
 | ||||||
|  | - Dotrénovaný model multilingual BERT base  na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie. | ||||||
|  | - Natrénovaný model Electra-small, slovník SNK Morpho 1M slov., 30 tisíc BPE tokenov. | ||||||
|  | 
 | ||||||
|  | ## Rozpracované úlohy | ||||||
|  | 
 | ||||||
|  | - Natrénovať Electra Base. | ||||||
|  | - Vylepšiť parametre trénovania. | ||||||
|  | - Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie. | ||||||
|  | - Dotrénovať model na SK QUAD a exaktne vyhodnotiť pomocou oficiálneho squad skriptu. | ||||||
|  | - Pripraviť aj iné množiny na vyhodnotnie: | ||||||
|  |     - kategorizácia textu na SCNC1. | ||||||
|  |     - POS na Slovak Treebank. | ||||||
|  |     - pripraviť iné množiny. | ||||||
|  | 
 | ||||||
|  | ## Poznámky | ||||||
|  | 
 | ||||||
|  | - Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu "small model" asi nestačí na QA. | ||||||
|  | - Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. Pri electre bolo max. 256 tokenov na odsek.  | ||||||
|  | - Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje. | ||||||
|  | - Trénovanie base electra trvá cca 40 dní na jednej karte. | ||||||
|  | - Trénovanie electra small trvá asi 3 dni, ale model už ďalej nekonverguje po jednom dni.  | ||||||
|  | - Dotrénovanie trvá iba niekoľko hodín. | ||||||
|  | 
 | ||||||
|  | ## Budúci výskum | ||||||
|  | 
 | ||||||
|  | - Zistiť aký je optimálny počet tokenov? | ||||||
|  | - Zistiť aký je optimálný slovník? | ||||||
|  | - Pripraviť webové demo na slovenské QA. | ||||||
|  | - Integrovať QA s dialógovým systémom. | ||||||
|  | - Integrovať QA s vyhľadávačom. | ||||||
|  | - Zostaviť multilinguálny BERT model. | ||||||
|  | - Natrénovať BART model. | ||||||
|  | - Natrénovať model založený na znakoch. | ||||||
		Loading…
	
		Reference in New Issue
	
	Block a user