- Nainštalovaná Anaconda, rozbehaný anlgický trénovací skript s databázou WikiEdits a modelom T5small. Notebook je príliš pomalý na trénovanie.
- Oboznámenie sa s materiálmi - d2dl aj Python.
Úlohy:
- Pokračujte v štúdiu modelov T5 aj GPT aj ChatGPT. Robte si písomné poznámky. Poznačte si odkazy na odborné články, napr. Arxiv.
- Použite server google scholar a zistite ako sa robí ooprava textu pomocu modelu T5. Poznačte si články ktoré sa týkajú tejto témy a napíšte o čom tie články sú.
- Prečítajte si môj článok Survey of Automatic Spelling Correction a urobte si poznámky,
- dotrénujte anglický model t5 small na opravu a vyhodnotte ho. Na vyhodnotneie sa používa metrika WER, CER, SER, BLEU. Zistite čo to je.
Zásobník úloh:
- Natrénujte model pre opravu textu v slovenskom jazyku.