forked from KEMT/zpwiki
		
	Update 'pages/topics/bert/README.md'
This commit is contained in:
		
							parent
							
								
									3f75d311e8
								
							
						
					
					
						commit
						570fdf6494
					
				@ -13,7 +13,7 @@ author: Daniel Hládek
 | 
				
			|||||||
- [SlovakBERT](https://github.com/gerulata/slovakbert) od Kinit, a [článok](https://arxiv.org/abs/2109.15254)
 | 
					- [SlovakBERT](https://github.com/gerulata/slovakbert) od Kinit, a [článok](https://arxiv.org/abs/2109.15254)
 | 
				
			||||||
- [SK Quad](/topics/question) - Slovak Question Answering Dataset 
 | 
					- [SK Quad](/topics/question) - Slovak Question Answering Dataset 
 | 
				
			||||||
- bakalárska práca [Ondrej Megela](/students/2018/ondrej_megela)
 | 
					- bakalárska práca [Ondrej Megela](/students/2018/ondrej_megela)
 | 
				
			||||||
- diplomová práza Jozef Olekšák (inprogress, trénovanie electra na colab).
 | 
					- diplomová práza Jozef Olekšák (in progress, trénovanie electra na colab).
 | 
				
			||||||
- https://git.kemt.fei.tuke.sk/dano/bert-train
 | 
					- https://git.kemt.fei.tuke.sk/dano/bert-train
 | 
				
			||||||
 | 
					
 | 
				
			||||||
## Rozpracované úlohy
 | 
					## Rozpracované úlohy
 | 
				
			||||||
@ -21,6 +21,7 @@ author: Daniel Hládek
 | 
				
			|||||||
- Trénovanie na TPU Google Colab  Electra Base. (Olekšák)
 | 
					- Trénovanie na TPU Google Colab  Electra Base. (Olekšák)
 | 
				
			||||||
- trénovanie XLNet Base
 | 
					- trénovanie XLNet Base
 | 
				
			||||||
- Tokenizer SentencePiece pre XLNet
 | 
					- Tokenizer SentencePiece pre XLNet
 | 
				
			||||||
 | 
					- Trénovanie Roberta Base (zatiaľ najlepšie 0.65)
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					
 | 
				
			||||||
## Hotové úlohy
 | 
					## Hotové úlohy
 | 
				
			||||||
@ -34,8 +35,8 @@ author: Daniel Hládek
 | 
				
			|||||||
 | 
					
 | 
				
			||||||
### Hugging Face Models Finetuning
 | 
					### Hugging Face Models Finetuning
 | 
				
			||||||
 | 
					
 | 
				
			||||||
- Dotrénovaný model multilingual BERT base  na SK QUAD, funguje demo skript. 
 | 
					- Dotrénovaný model multilingual BERT base  na SK QUAD, funguje demo skript. (0.72)
 | 
				
			||||||
- Dotrénovany Slovak Bert na SK QUAD
 | 
					- Dotrénovany Slovak Bert na SK QUAD (0.75)
 | 
				
			||||||
- Dotrénovaný model multilingual BERT na SQUAD anglickej, overné na slovenskej SK QUAD
 | 
					- Dotrénovaný model multilingual BERT na SQUAD anglickej, overné na slovenskej SK QUAD
 | 
				
			||||||
- SK Quad Datasets Interface
 | 
					- SK Quad Datasets Interface
 | 
				
			||||||
 | 
					
 | 
				
			||||||
@ -44,7 +45,6 @@ author: Daniel Hládek
 | 
				
			|||||||
- Natrénovaný HF Roberta Small
 | 
					- Natrénovaný HF Roberta Small
 | 
				
			||||||
- Deduplikovaný webový korpus oscar plus skweb2017
 | 
					- Deduplikovaný webový korpus oscar plus skweb2017
 | 
				
			||||||
- tokenizer BPE Roberta
 | 
					- tokenizer BPE Roberta
 | 
				
			||||||
- Trénovanie Roberta Base
 | 
					 | 
				
			||||||
 | 
					
 | 
				
			||||||
## Budúce  úlohy
 | 
					## Budúce  úlohy
 | 
				
			||||||
 | 
					
 | 
				
			||||||
@ -69,7 +69,6 @@ author: Daniel Hládek
 | 
				
			|||||||
- ELECTRA ingoruje pokyn na ponechanie diakritiky!!!! Ponechanie diakritiky funguje iba pre "prepare", inak sa diakritika stále odstraňuje. Ne ponechanie diakritiky sú potrebné úpravy v zdrojových kódoch. 
 | 
					- ELECTRA ingoruje pokyn na ponechanie diakritiky!!!! Ponechanie diakritiky funguje iba pre "prepare", inak sa diakritika stále odstraňuje. Ne ponechanie diakritiky sú potrebné úpravy v zdrojových kódoch. 
 | 
				
			||||||
- TODO: Vytvorenie slovníka ako pri BERT https://github.com/google-research/electra/issues/58 
 | 
					- TODO: Vytvorenie slovníka ako pri BERT https://github.com/google-research/electra/issues/58 
 | 
				
			||||||
 | 
					
 | 
				
			||||||
 | 
					 | 
				
			||||||
## Budúci výskum
 | 
					## Budúci výskum
 | 
				
			||||||
 | 
					
 | 
				
			||||||
- Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k.
 | 
					- Zistiť aký je optimálny počet tokenov? V Slovak BERT použili 50k.
 | 
				
			||||||
 | 
				
			|||||||
		Loading…
	
		Reference in New Issue
	
	Block a user