--- title: Andrii Pervashov published: true taxonomy: category: [bp2025] tag: [rag,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2022 ## Bakalárska práca 2025 Návrh na tému: Korekcia textu pomocou neurónových sietí - Oboznámte sa s existujúcimi systémami pre neurónový strojový preklad. - Aplikujte existujúci model na opravu textu vo vybraných úlohách. - Vyhodnnotte model pomocou overovacej množiny. Návrh na zadanie práce: 1. Napíšte prehľad metód opravy textu pomcou neurónových modelov. 2. Zostavte trénovací korpus a natrénujte vybraný model na úlohu opravy textu v slovenskom jazyku. 3. Navrhnite experiment a vyhodnotte kvalitu natrénovaného neurónového modelu. 4. Identifikujte možné zlepšenia navrhnutého modelu. Stretnutie 19.12.2024 Stav: - Nové trénovanie Byt5 z mc4. Vyzerá, že to ide. Vlastný trénovací skript, skript od Ing. Harahusa. - Text prepísaný do Latex, WIP Stretnutie 22.11.2024 Stav: - WikiEdits nefunguje. - Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky. - Na trénovanie sa používa mt5-large. - Konzultácia Ing. Harahusom PhD. - Trénovanie modelu. Úlohy: - Pokračujte v písaní podľa pokynov nižšie. - Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein. - Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base. - Pokračujte s "base modelmi". - Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný. Zásobník úloh: - Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4. Stretnutie 3.10.2024 Stav: - Spustený skript WikiEdits bez úprav. Výsledkom bol (asi) dobrý súbor csv s úpravami v slovenskom jazyku. - Vyskúšané dotrénovanie modelu mt5-base na tejto databáze. Trénovanie sa spustí. Po zatvorení tmux sa trénovanie nepodarí obnoviť. Online update 4.9.2024 Úlohy: - Upravte skripty [WikiEdits](https://github.com/snukky/wikiedits/tree/master/wikiedits) na slovenský jazyk Stav 14.8.2024: - Nainštalovaná Anaconda, rozbehaný anglický trénovací skript s databázou WikiEdits a modelom T5small. Notebook je príliš pomalý na trénovanie. - Oboznámenie sa s materiálmi - d2dl aj Python. Úlohy: - Pokračujte v štúdiu modelov T5 aj GPT aj ChatGPT. Robte si písomné poznámky. Poznačte si odkazy na odborné články, napr. Arxiv. - Použite server google scholar a zistite ako sa robí ooprava textu pomocu modelu T5. Poznačte si články ktoré sa týkajú tejto témy a napíšte o čom tie články sú. - Prečítajte si môj článok Survey of Automatic Spelling Correction a urobte si poznámky, - dotrénujte anglický model t5 small na opravu a vyhodnotte ho. Na vyhodnotneie sa používa metrika WER, CER, SER, BLEU. Zistite čo to je. Zásobník úloh: - Natrénujte model pre opravu textu v slovenskom jazyku. - Pripravte webové demo. Stretnutie 26.4. 2024 Úlohy: - Nainštalujte si prostredie Anaconda. - Prejdite si knihu Dive Deep into Python 3. - Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. - Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica. - Zistite ako funguje tento model https://huggingface.co/docs/transformers/en/model_doc/byt5 - Napíšte si poznámky o tom ako funguje model Transformers a ako funguje model T5.