forked from KEMT/zpwiki
		
	zz
This commit is contained in:
		
							parent
							
								
									e8ff9c3e7d
								
							
						
					
					
						commit
						ef3c214738
					
				
							
								
								
									
										55
									
								
								pages/topics/bert/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										55
									
								
								pages/topics/bert/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,55 @@ | ||||
| --- | ||||
| title: Jazykový model slovenského jazyka | ||||
| published: true | ||||
| author: Daniel Hládek | ||||
| --- | ||||
| 
 | ||||
| ! Cieľ: | ||||
| ! | ||||
| ! - Natrénovať a slovenský jazykový model typu BERT z korpusu webových textov | ||||
| ! - Vyhodnotiť jazykový model dotrénovaním na úlohách: | ||||
| !    - SK-QUAD 2.0 | ||||
| !    - POS z Slovak Treebank | ||||
| !    - kategórie zo Slovak Categorized news Corpus | ||||
| 
 | ||||
| ## Súvisiace projekty | ||||
| 
 | ||||
| - [SlovakBERT](https://github.com/gerulata/slovakbert) od Kinit, a [článok](https://arxiv.org/abs/2109.15254) | ||||
| - [SK Quad](/topics/question) - Slovak Question Answering Dataset  | ||||
| - bakalárska práca [Ondrej Megela](/students/) | ||||
| 
 | ||||
| ## Hotové úlohy | ||||
| 
 | ||||
| - Dotrénovaný model multilingual BERT base  na SK QUAD, funguje demo skript. Nefunguje exaktné vyhodnotenie. | ||||
| - Natrénovaný model Electra-small, slovník SNK Morpho 1M slov., 30 tisíc BPE tokenov. | ||||
| 
 | ||||
| ## Rozpracované úlohy | ||||
| 
 | ||||
| - Natrénovať Electra Base. | ||||
| - Vylepšiť parametre trénovania. | ||||
| - Dokončiť SK SQUAD databázu pre exaktné vyhodnotenie. | ||||
| - Dotrénovať model na SK QUAD a exaktne vyhodnotiť pomocou oficiálneho squad skriptu. | ||||
| - Pripraviť aj iné množiny na vyhodnotnie: | ||||
|     - kategorizácia textu na SCNC1. | ||||
|     - POS na Slovak Treebank. | ||||
|     - pripraviť iné množiny. | ||||
| 
 | ||||
| ## Poznámky | ||||
| 
 | ||||
| - Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu "small model" asi nestačí na QA. | ||||
| - Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní. Pri electre bolo max. 256 tokenov na odsek.  | ||||
| - Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje. | ||||
| - Trénovanie base electra trvá cca 40 dní na jednej karte. | ||||
| - Trénovanie electra small trvá asi 3 dni, ale model už ďalej nekonverguje po jednom dni.  | ||||
| - Dotrénovanie trvá iba niekoľko hodín. | ||||
| 
 | ||||
| ## Budúci výskum | ||||
| 
 | ||||
| - Zistiť aký je optimálny počet tokenov? | ||||
| - Zistiť aký je optimálný slovník? | ||||
| - Pripraviť webové demo na slovenské QA. | ||||
| - Integrovať QA s dialógovým systémom. | ||||
| - Integrovať QA s vyhľadávačom. | ||||
| - Zostaviť multilinguálny BERT model. | ||||
| - Natrénovať BART model. | ||||
| - Natrénovať model založený na znakoch. | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user