Update 'pages/students/2020/pavol_hudak/README.md'

2024-04-05 14:02:34 +00:00 · 2024-04-05 14:02:34 +00:00 · ea3cf0455b
commit ea3cf0455b
parent 5a3033991b
1 changed files with 11 additions and 3 deletions
--- a/pages/students/2020/pavol_hudak/README.md
+++ b/pages/students/2020/pavol_hudak/README.md
@ -19,18 +19,18 @@ Ciel:
 Ciele na semester:
 - Zobrať veľký jazykový model (základný alebo instruct alebo chat). 
- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD.
+- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
 - Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
 - Vyhodnotiť presnosť QA dotrénovaného modelu.
 Ďalšie nápady:
- 
+- Automaticky zlepšiť "prompt" pre QA.
 Vybrať jednu z úloh:
 - Tvorba instruct datasetu - Anotácia alebo preklad množín
 - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
 - Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning)
 Stretnutie 5.4.
@ -38,6 +38,14 @@ Stav:
 - Nainštalované PrivateGPT. 
 - Nainštalovaná Anaconda a Python, aj štúdium a príprava.
 - Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.
 Úlohy:
 - Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
 - Kandidáti sú UMT5, 
 - Vyhodnoote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). 
 Stretnutie 23.2.