From ea3cf0455b1982c2dcbd1579131426a76f4d932f Mon Sep 17 00:00:00 2001
From: dano <dhladek@gmail.com>
Date: Fri, 5 Apr 2024 14:02:34 +0000
Subject: [PATCH] Update 'pages/students/2020/pavol_hudak/README.md'

---
 pages/students/2020/pavol_hudak/README.md | 14 +++++++++++---
 1 file changed, 11 insertions(+), 3 deletions(-)

diff --git a/pages/students/2020/pavol_hudak/README.md b/pages/students/2020/pavol_hudak/README.md
index d6491d32..64b291ec 100644
--- a/pages/students/2020/pavol_hudak/README.md
+++ b/pages/students/2020/pavol_hudak/README.md
@@ -19,18 +19,18 @@ Ciel:
 Ciele na semester:
 
 - Zobrať veľký jazykový model (základný alebo instruct alebo chat). 
-- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD.
+- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
+- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
 - Vyhodnotiť presnosť QA dotrénovaného modelu.
 
 Ďalšie nápady:
 
-- 
+- Automaticky zlepšiť "prompt" pre QA.
 
 Vybrať jednu z úloh:
 
 - Tvorba instruct datasetu - Anotácia alebo preklad množín
 - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
-- Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning)
 
 Stretnutie 5.4.
 
@@ -38,6 +38,14 @@ Stav:
 
 - Nainštalované PrivateGPT. 
 - Nainštalovaná Anaconda a Python, aj štúdium a príprava.
+- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.
+
+Úlohy:
+
+- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
+- Kandidáti sú UMT5, 
+- Vyhodnoote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). 
+
 
 Stretnutie 23.2.