From 3e926981ea52ec5df66ae574fac075bd2c45d9e7 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 22 Nov 2024 12:19:14 +0000 Subject: [PATCH] Update pages/students/2022/andrii_pervashov/README.md --- pages/students/2022/andrii_pervashov/README.md | 13 ++++++++++++- 1 file changed, 12 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/andrii_pervashov/README.md b/pages/students/2022/andrii_pervashov/README.md index f4199dd076..57e02a5311 100644 --- a/pages/students/2022/andrii_pervashov/README.md +++ b/pages/students/2022/andrii_pervashov/README.md @@ -27,13 +27,24 @@ Stretnutie 22.11.2024 Stav: - WikiEdits nefunguje. -- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. +- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky. - Na trénovanie sa používa mt5-large. - Konzultácia Ing. Harahusom PhD. - Trénovanie modelu. Úlohy: +- Pokračujte v písaní podľa pokynov nižšie. +- Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein. +- Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base. +- Pokračujte s "base modelmi". +- Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný. + +Zásobník úloh: + +- Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4. + + Stretnutie 3.10.2024