forked from KEMT/zpwiki
108 lines
3.6 KiB
Markdown
108 lines
3.6 KiB
Markdown
---
|
|
title: Andrii Pervashov
|
|
published: true
|
|
taxonomy:
|
|
category: [bp2025]
|
|
tag: [rag,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
|
|
rok začiatku štúdia: 2022
|
|
|
|
|
|
## Bakalárska práca 2025
|
|
|
|
|
|
|
|
Návrh na tému:
|
|
|
|
Korekcia textu pomocou neurónových sietí
|
|
|
|
- Oboznámte sa s existujúcimi systémami pre neurónový strojový preklad.
|
|
- Aplikujte existujúci model na opravu textu vo vybraných úlohách.
|
|
- Vyhodnnotte model pomocou overovacej množiny.
|
|
|
|
Návrh na zadanie práce:
|
|
|
|
1. Napíšte prehľad metód opravy textu pomcou neurónových modelov.
|
|
2. Zostavte trénovací korpus a natrénujte vybraný model na úlohu opravy textu v slovenskom jazyku.
|
|
3. Navrhnite experiment a vyhodnotte kvalitu natrénovaného neurónového modelu.
|
|
4. Identifikujte možné zlepšenia navrhnutého modelu.
|
|
|
|
Stretnutie 19.12.2024
|
|
|
|
Stav:
|
|
|
|
- Nové trénovanie Byt5 z mc4. Vyzerá, že to ide. Vlastný trénovací skript, skript od Ing. Harahusa.
|
|
- Text prepísaný do Latex, WIP
|
|
|
|
|
|
Stretnutie 22.11.2024
|
|
|
|
Stav:
|
|
|
|
- WikiEdits nefunguje.
|
|
- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky.
|
|
- Na trénovanie sa používa mt5-large.
|
|
- Konzultácia Ing. Harahusom PhD.
|
|
- Trénovanie modelu.
|
|
|
|
Úlohy:
|
|
|
|
- Pokračujte v písaní podľa pokynov nižšie.
|
|
- Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein.
|
|
- Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base.
|
|
- Pokračujte s "base modelmi".
|
|
- Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4.
|
|
|
|
|
|
|
|
|
|
Stretnutie 3.10.2024
|
|
|
|
Stav:
|
|
|
|
- Spustený skript WikiEdits bez úprav. Výsledkom bol (asi) dobrý súbor csv s úpravami v slovenskom jazyku.
|
|
- Vyskúšané dotrénovanie modelu mt5-base na tejto databáze. Trénovanie sa spustí. Po zatvorení tmux sa trénovanie nepodarí obnoviť.
|
|
|
|
|
|
Online update 4.9.2024
|
|
|
|
Úlohy:
|
|
|
|
- Upravte skripty [WikiEdits](https://github.com/snukky/wikiedits/tree/master/wikiedits) na slovenský jazyk
|
|
|
|
Stav 14.8.2024:
|
|
|
|
- Nainštalovaná Anaconda, rozbehaný anglický trénovací skript s databázou WikiEdits a modelom T5small. Notebook je príliš pomalý na trénovanie.
|
|
- Oboznámenie sa s materiálmi - d2dl aj Python.
|
|
|
|
Úlohy:
|
|
|
|
- Pokračujte v štúdiu modelov T5 aj GPT aj ChatGPT. Robte si písomné poznámky. Poznačte si odkazy na odborné články, napr. Arxiv.
|
|
- Použite server google scholar a zistite ako sa robí ooprava textu pomocu modelu T5. Poznačte si články ktoré sa týkajú tejto témy a napíšte o čom tie články sú.
|
|
- Prečítajte si môj článok Survey of Automatic Spelling Correction a urobte si poznámky,
|
|
- dotrénujte anglický model t5 small na opravu a vyhodnotte ho. Na vyhodnotneie sa používa metrika WER, CER, SER, BLEU. Zistite čo to je.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Natrénujte model pre opravu textu v slovenskom jazyku.
|
|
- Pripravte webové demo.
|
|
|
|
Stretnutie 26.4. 2024
|
|
|
|
Úlohy:
|
|
|
|
- Nainštalujte si prostredie Anaconda.
|
|
- Prejdite si knihu Dive Deep into Python 3.
|
|
- Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
|
|
- Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
|
|
- Zistite ako funguje tento model https://huggingface.co/docs/transformers/en/model_doc/byt5
|
|
- Napíšte si poznámky o tom ako funguje model Transformers a ako funguje model T5.
|
|
|