From 9764b955494f9c8ab4ff7a248603e2880c1f4f9c Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 29 Jan 2024 09:51:44 +0000 Subject: [PATCH] Update 'pages/students/2020/vladyslav_krupko/README.md' --- .../students/2020/vladyslav_krupko/README.md | 24 ++++++++++++++++++- 1 file changed, 23 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/vladyslav_krupko/README.md b/pages/students/2020/vladyslav_krupko/README.md index 83dba5aee4..4bb5932a75 100644 --- a/pages/students/2020/vladyslav_krupko/README.md +++ b/pages/students/2020/vladyslav_krupko/README.md @@ -24,6 +24,28 @@ Ciele: - Dotrénovať ChatGPT alebo iný generatívny model pre vlastnú databázu otázok a odpovedí. +Stretnutie 29.1.2024 + +Stav: + +- Prezentácia je. +- Získané dáta z GymBeam. Selenium Scraper je veľmi pomalý, nevieme prečo. +- Vyskúšané ChatGPT API s dátami čo máme. Odpoveď je zatiaľ po anglicky. +- Na prevod z csv do json je použitá LLAMA. + +Úlohy: + +- Na vyhdonotenie je potrebné rozdeliť dáta na dve časti, trénovaciu a testovaciu. Testovacie dáta vynechajte z trénovania. Sledujte čo generuje model a porovnajte to s tým čo je očakávané v dátach. Ako metriku porovnania použite ROUGE alebo BLEU. +- Výsledky dajte do tabuľky do práce. +- Pokračujte v písaní práce. +- Pokračujte v získavaní a príprave dát. + +Zásobník: + +- Na rovnakých dátach natrénujte "lokálny model" pomocou skriptov Huggingface (machine translation) - mt5-base, llama-7B-4bit . Musíte nainštalovať transformers zo zdrojákov. Musíte si vytvoriť nové virtuálne prostredie a najprv nainštalovať pytorch. + + + Stretnutie 15.12.2023 Stav: @@ -32,7 +54,7 @@ Stav: Úlohy: -- Z webu získajte vhodnú sadu otázok a odpovedí. Uložte ju vo formáte json - jeden dokument na jede riadok. Využite Váš scraper. Ako zdroj skúste použiť Otázky zákazníkov z GymBeam. Uložte - v jednom dokumente by mal byť informácie o produktem otázky aj odpovede. Ak sa to nepodarí, zamerajte sa na iný zdroj dát. Napríklad https://www.modrastrecha.sk/forum/ , alebo https://www.modrykonik.sk/forum. +- Z webu získajte vhodnú sadu otázok a odpovedí. Uložte ju vo formáte json - jeden dokument na jede riadok. Využite Váš scraper. Ako zdroj skúste použiť Otázky zákazníkov z GymBeam. Uložte - v jednom dokumente by mal byť informácie o produktem otázky aj odpovede. Ak sa to nepodarí, zamerajte sa na iný zdroj dát. Napríklad https://www.modrastrecha.sk/forum/ , alebo https://www.modrykonik.sk/forum. - Pripravte dáta do vhodnej podoby a natrénujte generatívny model - ChatGPT, T5-SMALL, - Vyhoddnotte všetky modely, výsledky sumarizujte v tabuľkách. Experimenty opíšte do práce. - Urobte si repozitár bp2024 na git.kemt.fei.tuke.sk. Skripty dávajte na git.