diff --git a/pages/students/2020/pavol_hudak/README.md b/pages/students/2020/pavol_hudak/README.md index d6491d3293..64b291ec6d 100644 --- a/pages/students/2020/pavol_hudak/README.md +++ b/pages/students/2020/pavol_hudak/README.md @@ -19,18 +19,18 @@ Ciel: Ciele na semester: - Zobrať veľký jazykový model (základný alebo instruct alebo chat). -- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. +- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka. +- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model. - Vyhodnotiť presnosť QA dotrénovaného modelu. Ďalšie nápady: -- +- Automaticky zlepšiť "prompt" pre QA. Vybrať jednu z úloh: - Tvorba instruct datasetu - Anotácia alebo preklad množín - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT -- Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning) Stretnutie 5.4. @@ -38,6 +38,14 @@ Stav: - Nainštalované PrivateGPT. - Nainštalovaná Anaconda a Python, aj štúdium a príprava. +- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT. + +Úlohy: + +- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model. +- Kandidáti sú UMT5, +- Vyhodnoote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). + Stretnutie 23.2.