forked from KEMT/zpwiki
		
	Update 'pages/topics/bert/README.md'
This commit is contained in:
		
							parent
							
								
									3f75d311e8
								
							
						
					
					
						commit
						570fdf6494
					
				| @ -13,7 +13,7 @@ author: Daniel Hládek | |||||||
| - [SlovakBERT](https://github.com/gerulata/slovakbert) od Kinit, a [článok](https://arxiv.org/abs/2109.15254) | - [SlovakBERT](https://github.com/gerulata/slovakbert) od Kinit, a [článok](https://arxiv.org/abs/2109.15254) | ||||||
| - [SK Quad](/topics/question) - Slovak Question Answering Dataset  | - [SK Quad](/topics/question) - Slovak Question Answering Dataset  | ||||||
| - bakalárska práca [Ondrej Megela](/students/2018/ondrej_megela) | - bakalárska práca [Ondrej Megela](/students/2018/ondrej_megela) | ||||||
| - diplomová práza Jozef Olekšák (inprogress, trénovanie electra na colab). | - diplomová práza Jozef Olekšák (in progress, trénovanie electra na colab). | ||||||
| - https://git.kemt.fei.tuke.sk/dano/bert-train | - https://git.kemt.fei.tuke.sk/dano/bert-train | ||||||
| 
 | 
 | ||||||
| ## Rozpracované úlohy | ## Rozpracované úlohy | ||||||
| @ -21,6 +21,7 @@ author: Daniel Hládek | |||||||
| - Trénovanie na TPU Google Colab  Electra Base. (Olekšák) | - Trénovanie na TPU Google Colab  Electra Base. (Olekšák) | ||||||
| - trénovanie XLNet Base | - trénovanie XLNet Base | ||||||
| - Tokenizer SentencePiece pre XLNet | - Tokenizer SentencePiece pre XLNet | ||||||
|  | - Trénovanie Roberta Base (zatiaľ najlepšie 0.65) | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| ## Hotové úlohy | ## Hotové úlohy | ||||||
| @ -34,8 +35,8 @@ author: Daniel Hládek | |||||||
| 
 | 
 | ||||||
| ### Hugging Face Models Finetuning | ### Hugging Face Models Finetuning | ||||||
| 
 | 
 | ||||||
| - Dotrénovaný model multilingual BERT base  na SK QUAD, funguje demo skript.  | - Dotrénovaný model multilingual BERT base  na SK QUAD, funguje demo skript. (0.72) | ||||||
| - Dotrénovany Slovak Bert na SK QUAD | - Dotrénovany Slovak Bert na SK QUAD (0.75) | ||||||
| - Dotrénovaný model multilingual BERT na SQUAD anglickej, overné na slovenskej SK QUAD | - Dotrénovaný model multilingual BERT na SQUAD anglickej, overné na slovenskej SK QUAD | ||||||
| - SK Quad Datasets Interface | - SK Quad Datasets Interface | ||||||
| 
 | 
 | ||||||
| @ -44,7 +45,6 @@ author: Daniel Hládek | |||||||
| - Natrénovaný HF Roberta Small | - Natrénovaný HF Roberta Small | ||||||
| - Deduplikovaný webový korpus oscar plus skweb2017 | - Deduplikovaný webový korpus oscar plus skweb2017 | ||||||
| - tokenizer BPE Roberta | - tokenizer BPE Roberta | ||||||
| - Trénovanie Roberta Base |  | ||||||
| 
 | 
 | ||||||
| ## Budúce  úlohy | ## Budúce  úlohy | ||||||
| 
 | 
 | ||||||
| @ -69,7 +69,6 @@ author: Daniel Hládek | |||||||
| - ELECTRA ingoruje pokyn na ponechanie diakritiky!!!! Ponechanie diakritiky funguje iba pre "prepare", inak sa diakritika stále odstraňuje. Ne ponechanie diakritiky sú potrebné úpravy v zdrojových kódoch.  | - ELECTRA ingoruje pokyn na ponechanie diakritiky!!!! Ponechanie diakritiky funguje iba pre "prepare", inak sa diakritika stále odstraňuje. Ne ponechanie diakritiky sú potrebné úpravy v zdrojových kódoch.  | ||||||
| - TODO: Vytvorenie slovníka ako pri BERT https://github.com/google-research/electra/issues/58  | - TODO: Vytvorenie slovníka ako pri BERT https://github.com/google-research/electra/issues/58  | ||||||
| 
 | 
 | ||||||
| 
 |  | ||||||
| ## Budúci výskum | ## Budúci výskum | ||||||
| 
 | 
 | ||||||
| - Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k. | - Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k. | ||||||
|  | |||||||
		Loading…
	
		Reference in New Issue
	
	Block a user