forked from KEMT/zpwiki
		
	Update 'pages/topics/bert/README.md'
This commit is contained in:
		
							parent
							
								
									9aaa261651
								
							
						
					
					
						commit
						0f23f2e051
					
				| @ -26,6 +26,18 @@ author: Daniel Hládek | |||||||
| 
 | 
 | ||||||
| ## Hotové úlohy | ## Hotové úlohy | ||||||
| 
 | 
 | ||||||
|  | ## Trénovací korpus | ||||||
|  | 
 | ||||||
|  | Deduplikované a tokenizované webové dáta pomocou nášho tokenizátora a deduplikátora.  | ||||||
|  | 
 | ||||||
|  | - Wikipédia | ||||||
|  | - Oscar Dedup | ||||||
|  | - Sita | ||||||
|  | - Websucker 2010,2012,2017 | ||||||
|  | - Websucker 2022 in progress | ||||||
|  | 
 | ||||||
|  | Spolu 25 GB po deduplikovaní. | ||||||
|  | 
 | ||||||
| ### Electra Model | ### Electra Model | ||||||
| 
 | 
 | ||||||
| - Vyhodnotenie Electra na SK SQUAD, UDP POS tagging | - Vyhodnotenie Electra na SK SQUAD, UDP POS tagging | ||||||
| @ -45,14 +57,17 @@ author: Daniel Hládek | |||||||
| - Natrénovaný HF Roberta Small | - Natrénovaný HF Roberta Small | ||||||
| - Deduplikovaný webový korpus oscar plus skweb2017 | - Deduplikovaný webový korpus oscar plus skweb2017 | ||||||
| - tokenizer BPE Roberta | - tokenizer BPE Roberta | ||||||
|  | - natrénovaný roberta base na 17GB korpuse, 0.65 na Squad | ||||||
|  | - trénovanie pomocou deepspeed (zrýchľuje cca 2x). | ||||||
|  | - pri efektívnej veľkosti dávky 1000 je asi najrýchlejčia konvrergencia pri lr 1e-4. , adam (0.9-0.999). | ||||||
| 
 | 
 | ||||||
| ## Budúce  úlohy | ## Budúce  úlohy | ||||||
| 
 | 
 | ||||||
| - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1. | - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1. | ||||||
| - Pridať Wikipedia do trénovania. |  | ||||||
| 
 | 
 | ||||||
| ## Poznámky | ## Poznámky | ||||||
| 
 | 
 | ||||||
|  | - Dáta z prokuratúry asi zhoršujú model kvôli anonymizácii, skratkám a právnickému jazyku. | ||||||
| - Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA. | - Nie každý model je vhodný na QA. Je potrebné aby mal veľký rozmer vstupného vektora aby aj dlhší odsek mohol byť na vstupe. Z toho dôvodu 128 "small model" asi nestačí na QA. | ||||||
| - Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní.  | - Väčší vstupný rozmer je obmedzený veľkosťou RAM pri trénovaní.  | ||||||
| - Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje. | - Electra vie využiť iba jednu Titan kartu, druhú zbytočne blokuje. | ||||||
|  | |||||||
		Loading…
	
		Reference in New Issue
	
	Block a user