Update pages/students/2022/andrii_pervashov/README.md

This commit is contained in:
dano 2024-11-22 12:19:14 +00:00
parent 1dbfb5636b
commit 3e926981ea

View File

@ -27,13 +27,24 @@ Stretnutie 22.11.2024
Stav:
- WikiEdits nefunguje.
- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo.
- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky.
- Na trénovanie sa používa mt5-large.
- Konzultácia Ing. Harahusom PhD.
- Trénovanie modelu.
Úlohy:
- Pokračujte v písaní podľa pokynov nižšie.
- Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein.
- Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base.
- Pokračujte s "base modelmi".
- Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný.
Zásobník úloh:
- Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4.
Stretnutie 3.10.2024