forked from KEMT/zpwiki
Update pages/students/2022/andrii_pervashov/README.md
This commit is contained in:
parent
1dbfb5636b
commit
3e926981ea
@ -27,13 +27,24 @@ Stretnutie 22.11.2024
|
|||||||
Stav:
|
Stav:
|
||||||
|
|
||||||
- WikiEdits nefunguje.
|
- WikiEdits nefunguje.
|
||||||
- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo.
|
- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky.
|
||||||
- Na trénovanie sa používa mt5-large.
|
- Na trénovanie sa používa mt5-large.
|
||||||
- Konzultácia Ing. Harahusom PhD.
|
- Konzultácia Ing. Harahusom PhD.
|
||||||
- Trénovanie modelu.
|
- Trénovanie modelu.
|
||||||
|
|
||||||
Úlohy:
|
Úlohy:
|
||||||
|
|
||||||
|
- Pokračujte v písaní podľa pokynov nižšie.
|
||||||
|
- Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein.
|
||||||
|
- Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base.
|
||||||
|
- Pokračujte s "base modelmi".
|
||||||
|
- Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný.
|
||||||
|
|
||||||
|
Zásobník úloh:
|
||||||
|
|
||||||
|
- Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4.
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
Stretnutie 3.10.2024
|
Stretnutie 3.10.2024
|
||||||
|
Loading…
Reference in New Issue
Block a user