Update 'pages/students/2020/pavol_hudak/README.md'

2024-04-05 14:02:34 +00:00 · 2024-04-05 14:02:34 +00:00 · ea3cf0455b
commit ea3cf0455b
parent 5a3033991b
1 changed files with 11 additions and 3 deletions
--- a/pages/students/2020/pavol_hudak/README.md
+++ b/pages/students/2020/pavol_hudak/README.md
@ -19,18 +19,18 @@ Ciel:
 Ciele na semester:

 - Zobrať veľký jazykový model (základný alebo instruct alebo chat). 
- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD.
+- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
+- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
 - Vyhodnotiť presnosť QA dotrénovaného modelu.

 Ďalšie nápady:

- 
+- Automaticky zlepšiť "prompt" pre QA.

 Vybrať jednu z úloh:

 - Tvorba instruct datasetu - Anotácia alebo preklad množín
 - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
- Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning)

 Stretnutie 5.4.

@ -38,6 +38,14 @@ Stav:

 - Nainštalované PrivateGPT. 
 - Nainštalovaná Anaconda a Python, aj štúdium a príprava.
+- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.
+
+Úlohy:
+
+- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
+- Kandidáti sú UMT5, 
+- Vyhodnoote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). 
+

 Stretnutie 23.2.