---
title: Andrii Pervashov
published: true
taxonomy:
    category: [bp2025]
    tag: [rag,nlp]
    author: Daniel Hladek
---


rok začiatku štúdia: 2022


## Bakalárska práca 2025


Návrh na tému:

Korekcia textu pomocou neurónových sietí

-    Oboznámte sa s existujúcimi systémami pre neurónový strojový preklad.
-    Aplikujte existujúci model na opravu textu vo vybraných úlohách.
-    Vyhodnnotte model pomocou overovacej množiny.

Stretnutie 3.10.2024

Stav:

- Spustený skript WikiEdits bez úprav. Výsledkom bol (asi) dobrý súbor csv s úpravami v slovenskom jazyku.
- Vyskúšané dotrénovanie modelu mt5-base na tejto databáze. Trénovanie sa spustí. Po zatvorení tmux sa trénovanie nepodarí obnoviť.


Online update 4.9.2024

Úlohy:

- Upravte skripty [WikiEdits](https://github.com/snukky/wikiedits/tree/master/wikiedits) na slovenský jazyk

Stav 14.8.2024:

- Nainštalovaná Anaconda, rozbehaný anglický trénovací skript s databázou WikiEdits a modelom T5small. Notebook je príliš pomalý na trénovanie.
- Oboznámenie sa s materiálmi - d2dl aj Python.

Úlohy:

- Pokračujte v štúdiu modelov T5 aj GPT aj ChatGPT. Robte si písomné poznámky. Poznačte si odkazy na odborné články, napr. Arxiv.
- Použite server google scholar a zistite ako sa robí ooprava textu pomocu modelu T5. Poznačte si články ktoré sa týkajú tejto témy a napíšte o čom tie články sú.
- Prečítajte si môj článok Survey of Automatic Spelling Correction a urobte si poznámky,
- dotrénujte anglický model t5 small na opravu a vyhodnotte ho. Na vyhodnotneie sa používa metrika WER, CER, SER, BLEU. Zistite čo to je.

Zásobník úloh:

- Natrénujte model pre opravu textu v slovenskom jazyku.
- Pripravte webové demo.

Stretnutie 26.4. 2024

Úlohy:

- Nainštalujte si prostredie Anaconda. 
- Prejdite si knihu Dive Deep into Python 3.
- Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.	
- Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
- Zistite ako funguje tento model https://huggingface.co/docs/transformers/en/model_doc/byt5
- Napíšte si poznámky o tom ako funguje model Transformers a ako funguje model T5.