diff --git a/pages/students/2022/andrii_pervashov/README.md b/pages/students/2022/andrii_pervashov/README.md index f4199dd07..57e02a531 100644 --- a/pages/students/2022/andrii_pervashov/README.md +++ b/pages/students/2022/andrii_pervashov/README.md @@ -27,13 +27,24 @@ Stretnutie 22.11.2024 Stav: - WikiEdits nefunguje. -- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. +- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky. - Na trénovanie sa používa mt5-large. - Konzultácia Ing. Harahusom PhD. - Trénovanie modelu. Úlohy: +- Pokračujte v písaní podľa pokynov nižšie. +- Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein. +- Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base. +- Pokračujte s "base modelmi". +- Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný. + +Zásobník úloh: + +- Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4. + + Stretnutie 3.10.2024