zpwiki/pages/students/2022/andrii_pervashov
2024-12-19 13:25:30 +00:00
..
README.md Update pages/students/2022/andrii_pervashov/README.md 2024-12-19 13:25:30 +00:00

title published taxonomy
Andrii Pervashov true
category tag author
bp2025
rag
nlp
Daniel Hladek

rok začiatku štúdia: 2022

Bakalárska práca 2025

Návrh na tému:

Korekcia textu pomocou neurónových sietí

  • Oboznámte sa s existujúcimi systémami pre neurónový strojový preklad.
  • Aplikujte existujúci model na opravu textu vo vybraných úlohách.
  • Vyhodnnotte model pomocou overovacej množiny.

Návrh na zadanie práce:

  1. Napíšte prehľad metód opravy textu pomcou neurónových modelov.
  2. Zostavte trénovací korpus a natrénujte vybraný model na úlohu opravy textu v slovenskom jazyku.
  3. Navrhnite experiment a vyhodnotte kvalitu natrénovaného neurónového modelu.
  4. Identifikujte možné zlepšenia navrhnutého modelu.

Stretnutie 19.12.2024

Stav:

  • Nové trénovanie Byt5 z mc4. Vyzerá, že to ide. Vlastný trénovací skript, skript od Ing. Harahusa.
  • Text prepísaný do Latex, WIP

Stretnutie 22.11.2024

Stav:

  • WikiEdits nefunguje.
  • Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky.
  • Na trénovanie sa používa mt5-large.
  • Konzultácia Ing. Harahusom PhD.
  • Trénovanie modelu.

Úlohy:

  • Pokračujte v písaní podľa pokynov nižšie.
  • Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein.
  • Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base.
  • Pokračujte s "base modelmi".
  • Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný.

Zásobník úloh:

  • Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4.

Stretnutie 3.10.2024

Stav:

  • Spustený skript WikiEdits bez úprav. Výsledkom bol (asi) dobrý súbor csv s úpravami v slovenskom jazyku.
  • Vyskúšané dotrénovanie modelu mt5-base na tejto databáze. Trénovanie sa spustí. Po zatvorení tmux sa trénovanie nepodarí obnoviť.

Online update 4.9.2024

Úlohy:

  • Upravte skripty WikiEdits na slovenský jazyk

Stav 14.8.2024:

  • Nainštalovaná Anaconda, rozbehaný anglický trénovací skript s databázou WikiEdits a modelom T5small. Notebook je príliš pomalý na trénovanie.
  • Oboznámenie sa s materiálmi - d2dl aj Python.

Úlohy:

  • Pokračujte v štúdiu modelov T5 aj GPT aj ChatGPT. Robte si písomné poznámky. Poznačte si odkazy na odborné články, napr. Arxiv.
  • Použite server google scholar a zistite ako sa robí ooprava textu pomocu modelu T5. Poznačte si články ktoré sa týkajú tejto témy a napíšte o čom tie články sú.
  • Prečítajte si môj článok Survey of Automatic Spelling Correction a urobte si poznámky,
  • dotrénujte anglický model t5 small na opravu a vyhodnotte ho. Na vyhodnotneie sa používa metrika WER, CER, SER, BLEU. Zistite čo to je.

Zásobník úloh:

  • Natrénujte model pre opravu textu v slovenskom jazyku.
  • Pripravte webové demo.

Stretnutie 26.4. 2024

Úlohy:

  • Nainštalujte si prostredie Anaconda.
  • Prejdite si knihu Dive Deep into Python 3.
  • Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
  • Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
  • Zistite ako funguje tento model https://huggingface.co/docs/transformers/en/model_doc/byt5
  • Napíšte si poznámky o tom ako funguje model Transformers a ako funguje model T5.