zpwiki/pages/students/2018/adrian_remias/README.md

---
title: Adrián Remiáš
published: true
date: 01-02-2014
taxonomy:
    category: [dp2024]
    tag: [nlp, transformers, interpuction]
    author: Daniel Hladek
---
# Adrián Remiáš

Rok začiatku štúdia: 2018

# Diplomová práca 2024

Návrh na zadamie:

- Vypracujte prehľad metód obnovy interpunkcie v slovenskom jazyku.
- Vypracujte prehľad metód jazykového modelovania pomocou neurónovej siete typu Transformer.
- Pripravte dátovú množinu pre trénovanie a vyhodnotenie  neurónovej siete na úlohu dopĺňania a opravy interpunkcie.
- Vyberte viacero neurónových modelov, natrénujte ich na úlohu dopňĺňania a opravy interpunkcie.
- Vyhodnoťte experimenty a vyberte najlepší model. 


Ciele:

- Natrénovanie modelu pre opravu iterpunkcie a jeho vyhodnotenie.
- Výsledky by mali byť prezentovateľné vo vedeckom článku.

Stretnutie 26.10.2023

Stav:

- Štúdium a poznámky podľa pokynov. Vyskúšaná Anaconda a transformers.


Úlohy:

- Pokračovať v štúdiu a v poznámkach. To je teoretická časť DP.
- Na katedrovom gite si vytvorte repozitár s názvom DP2024, do neho dajte kódy pre tvorbu dát a trénovanie siete. Dáta nedávajte na git.
- Na idoc nainštalujte transformers, pytorch s CUDA 10.1 pomocou Anaconda.
- Vyberte množinu slovenských textov a upravte ju do podoby  vhodnej na trénovanie neurónovej siete. Dáta sa nachádzajú na servri idoc.fei.tuke.sk v /mnt/sharedhome/hladek/bert-train/data/corpus3/. 
Na ľavej strane bude text bez interpunkcie. Na pravej strane bude len interpunkcia.
- Natrénujte neurónovú sieť. Množinu rozdeľte na trénovaciu a testovaciu časť. Začneme s modelom SlovakBERT.

Zásobník úloh:

- Vyskúšajte iný model ako je Slovak BERT.
- Pripravte dáta na "čiastočné" dopňlňanie. Skúste identifikovať iba koniec vety. Skúste náhodne "pokaziť" interpunkciu a pomocou neurónovej siete ju opraviť.

Stretnutie 5.10.2023

Stav:

- Urobená bakalárska práca na tému "Analýza textu z pohľadu forenznej lingvistiky".


Úlohy:

-  [x] Nainštalujte si balíček Anaconda. Pomocou neho si nainštalujete knižnicu Pytorch s podporou CUDA.

    
        conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
        pip install transformers

- [x] Oboznámte sa s frameworkom HuggingFace [Transformers](https://huggingface.co/docs/transformers/index). Vypracujte si viacero úvodných tutoriálov.
- [x] Podrobne sa oboznámte s úlohou [token classificaton](https://huggingface.co/docs/transformers/tasks/token_classification).
- [x] Prečítajte si [článok](https://ieeexplore.ieee.org/abstract/document/9089903 Comparison of Recurrent Neural Networks for Slovak Punctuation Restoration, urobte si poznámky.
- [x] Prečítajte si "Attention is all you need" https://arxiv.org/abs/1706.03762, urobte si poznámky.
- [-] Vyhľadajte heslo "punctuation restoration" na google scholar, poznačte si najdôležitejšie články. Prečítajte si ich a napíšte, akú metódu používaju.

Zásobník úloh:

- Vyberte množinu slovenských textov a upravte ju do podoby  vhodnej na trénovanie neurónovej siete. Natrénujte neurónovú sieť.
- Na katedrovom gite si vytvorte repozitár s názvom DP2024, do neho dajte kódy pre tvorbu dát a trénovanie siete. Dáta nedávajte na git.
z 2023-10-05 07:40:21 +00:00			`---`
			`title: Adrián Remiáš`
			`published: true`
			`date: 01-02-2014`
			`taxonomy:`
			`category: [dp2024]`
			`tag: [nlp, transformers, interpuction]`
			`author: Daniel Hladek`
			`---`
			`# Adrián Remiáš`

			`Rok začiatku štúdia: 2018`

			`# Diplomová práca 2024`

			`Návrh na zadamie:`

zz 2023-10-05 07:43:18 +00:00			`- Vypracujte prehľad metód obnovy interpunkcie v slovenskom jazyku.`
			`- Vypracujte prehľad metód jazykového modelovania pomocou neurónovej siete typu Transformer.`
			`- Pripravte dátovú množinu pre trénovanie a vyhodnotenie neurónovej siete na úlohu dopĺňania a opravy interpunkcie.`
			`- Vyberte viacero neurónových modelov, natrénujte ich na úlohu dopňĺňania a opravy interpunkcie.`
			`- Vyhodnoťte experimenty a vyberte najlepší model.`
z 2023-10-05 07:40:21 +00:00

			`Ciele:`

			`- Natrénovanie modelu pre opravu iterpunkcie a jeho vyhodnotenie.`
			`- Výsledky by mali byť prezentovateľné vo vedeckom článku.`

Update 'pages/students/2018/adrian_remias/README.md' 2023-10-26 08:12:46 +00:00			`Stretnutie 26.10.2023`

			`Stav:`

			`- Štúdium a poznámky podľa pokynov. Vyskúšaná Anaconda a transformers.`


			`Úlohy:`

			`- Pokračovať v štúdiu a v poznámkach. To je teoretická časť DP.`
			`- Na katedrovom gite si vytvorte repozitár s názvom DP2024, do neho dajte kódy pre tvorbu dát a trénovanie siete. Dáta nedávajte na git.`
Update 'pages/students/2018/adrian_remias/README.md' 2023-10-26 08:28:51 +00:00			`- Na idoc nainštalujte transformers, pytorch s CUDA 10.1 pomocou Anaconda.`
Update 'pages/students/2018/adrian_remias/README.md' 2023-10-26 08:23:00 +00:00			`- Vyberte množinu slovenských textov a upravte ju do podoby vhodnej na trénovanie neurónovej siete. Dáta sa nachádzajú na servri idoc.fei.tuke.sk v /mnt/sharedhome/hladek/bert-train/data/corpus3/.`
			`Na ľavej strane bude text bez interpunkcie. Na pravej strane bude len interpunkcia.`
			`- Natrénujte neurónovú sieť. Množinu rozdeľte na trénovaciu a testovaciu časť. Začneme s modelom SlovakBERT.`
Update 'pages/students/2018/adrian_remias/README.md' 2023-10-26 08:12:46 +00:00
Update 'pages/students/2018/adrian_remias/README.md' 2023-10-26 08:26:22 +00:00			`Zásobník úloh:`

			`- Vyskúšajte iný model ako je Slovak BERT.`
			`- Pripravte dáta na "čiastočné" dopňlňanie. Skúste identifikovať iba koniec vety. Skúste náhodne "pokaziť" interpunkciu a pomocou neurónovej siete ju opraviť.`
z 2023-10-05 07:40:21 +00:00
			`Stretnutie 5.10.2023`

			`Stav:`

			`- Urobená bakalárska práca na tému "Analýza textu z pohľadu forenznej lingvistiky".`


			`Úlohy:`

Update 'pages/students/2018/adrian_remias/README.md' 2023-10-26 08:12:46 +00:00			`- [x] Nainštalujte si balíček Anaconda. Pomocou neho si nainštalujete knižnicu Pytorch s podporou CUDA.`
z 2023-10-05 07:40:21 +00:00

			`conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia`
			`pip install transformers`

Update 'pages/students/2018/adrian_remias/README.md' 2023-10-26 08:12:46 +00:00			`- [x] Oboznámte sa s frameworkom HuggingFace [Transformers](https://huggingface.co/docs/transformers/index). Vypracujte si viacero úvodných tutoriálov.`
			`- [x] Podrobne sa oboznámte s úlohou [token classificaton](https://huggingface.co/docs/transformers/tasks/token_classification).`
			`- [x] Prečítajte si [článok](https://ieeexplore.ieee.org/abstract/document/9089903 Comparison of Recurrent Neural Networks for Slovak Punctuation Restoration, urobte si poznámky.`
			`- [x] Prečítajte si "Attention is all you need" https://arxiv.org/abs/1706.03762, urobte si poznámky.`
			`- [-] Vyhľadajte heslo "punctuation restoration" na google scholar, poznačte si najdôležitejšie články. Prečítajte si ich a napíšte, akú metódu používaju.`
z 2023-10-05 07:40:21 +00:00
			`Zásobník úloh:`

			`- Vyberte množinu slovenských textov a upravte ju do podoby vhodnej na trénovanie neurónovej siete. Natrénujte neurónovú sieť.`
			`- Na katedrovom gite si vytvorte repozitár s názvom DP2024, do neho dajte kódy pre tvorbu dát a trénovanie siete. Dáta nedávajte na git.`