Update 'pages/students/2020/pavol_hudak/README.md'

This commit is contained in:
dano 2024-04-05 14:02:34 +00:00
parent 5a3033991b
commit ea3cf0455b

View File

@ -19,18 +19,18 @@ Ciel:
Ciele na semester: Ciele na semester:
- Zobrať veľký jazykový model (základný alebo instruct alebo chat). - Zobrať veľký jazykový model (základný alebo instruct alebo chat).
- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. - Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
- Vyhodnotiť presnosť QA dotrénovaného modelu. - Vyhodnotiť presnosť QA dotrénovaného modelu.
Ďalšie nápady: Ďalšie nápady:
- - Automaticky zlepšiť "prompt" pre QA.
Vybrať jednu z úloh: Vybrať jednu z úloh:
- Tvorba instruct datasetu - Anotácia alebo preklad množín - Tvorba instruct datasetu - Anotácia alebo preklad množín
- Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
- Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning)
Stretnutie 5.4. Stretnutie 5.4.
@ -38,6 +38,14 @@ Stav:
- Nainštalované PrivateGPT. - Nainštalované PrivateGPT.
- Nainštalovaná Anaconda a Python, aj štúdium a príprava. - Nainštalovaná Anaconda a Python, aj štúdium a príprava.
- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.
Úlohy:
- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
- Kandidáti sú UMT5,
- Vyhodnoote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania).
Stretnutie 23.2. Stretnutie 23.2.