Compare commits

..

No commits in common. "3f75d311e8fd6940a9c9e95b2e2f9fd4ad93ce95" and "9f6c746d7e7c5f5648cef92d3077f0e2d36ab33e" have entirely different histories.

2 changed files with 7 additions and 9 deletions

View File

@ -1,12 +1,12 @@
--- ---
title: Manohar Gowdru Shridharu title: Manohar Gowdru
published: true published: true
taxonomy: taxonomy:
category: [phd2024] category: [phd2024]
tag: [lm,nlp] tag: [lm,nlp]
author: Daniel Hladek author: Daniel Hladek
--- ---
# Manohar Gowdru Shridharu # Manohar Gowdru
Beginning of the study: 2021 Beginning of the study: 2021

View File

@ -16,12 +16,6 @@ author: Daniel Hládek
- diplomová práza Jozef Olekšák (inprogress, trénovanie electra na colab). - diplomová práza Jozef Olekšák (inprogress, trénovanie electra na colab).
- https://git.kemt.fei.tuke.sk/dano/bert-train - https://git.kemt.fei.tuke.sk/dano/bert-train
## Rozpracované úlohy
- Trénovanie na TPU Google Colab Electra Base. (Olekšák)
- trénovanie XLNet Base
- Tokenizer SentencePiece pre XLNet
## Hotové úlohy ## Hotové úlohy
@ -44,11 +38,15 @@ author: Daniel Hládek
- Natrénovaný HF Roberta Small - Natrénovaný HF Roberta Small
- Deduplikovaný webový korpus oscar plus skweb2017 - Deduplikovaný webový korpus oscar plus skweb2017
- tokenizer BPE Roberta - tokenizer BPE Roberta
- Trénovanie Roberta Base
## Budúce úlohy ## Budúce úlohy
- Trénovanie na TPU Google Colab
- Natrénovať Electra Base.
- Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1. - Pripraviť aj iné množiny na vyhodnotnie: kategorizácia textu na SCNC1.
- Trénovanie Roberta Base
- trénovanie XLNet Base
- Tokenizer SentencePiece pre XLNet
- Pridať Wikipedia do trénovania. - Pridať Wikipedia do trénovania.
## Poznámky ## Poznámky