forked from KEMT/zpwiki
Update 'pages/students/2020/vladyslav_krupko/README.md'
This commit is contained in:
parent
a3d49dc7a9
commit
9764b95549
@ -24,6 +24,28 @@ Ciele:
|
|||||||
|
|
||||||
- Dotrénovať ChatGPT alebo iný generatívny model pre vlastnú databázu otázok a odpovedí.
|
- Dotrénovať ChatGPT alebo iný generatívny model pre vlastnú databázu otázok a odpovedí.
|
||||||
|
|
||||||
|
Stretnutie 29.1.2024
|
||||||
|
|
||||||
|
Stav:
|
||||||
|
|
||||||
|
- Prezentácia je.
|
||||||
|
- Získané dáta z GymBeam. Selenium Scraper je veľmi pomalý, nevieme prečo.
|
||||||
|
- Vyskúšané ChatGPT API s dátami čo máme. Odpoveď je zatiaľ po anglicky.
|
||||||
|
- Na prevod z csv do json je použitá LLAMA.
|
||||||
|
|
||||||
|
Úlohy:
|
||||||
|
|
||||||
|
- Na vyhdonotenie je potrebné rozdeliť dáta na dve časti, trénovaciu a testovaciu. Testovacie dáta vynechajte z trénovania. Sledujte čo generuje model a porovnajte to s tým čo je očakávané v dátach. Ako metriku porovnania použite ROUGE alebo BLEU.
|
||||||
|
- Výsledky dajte do tabuľky do práce.
|
||||||
|
- Pokračujte v písaní práce.
|
||||||
|
- Pokračujte v získavaní a príprave dát.
|
||||||
|
|
||||||
|
Zásobník:
|
||||||
|
|
||||||
|
- Na rovnakých dátach natrénujte "lokálny model" pomocou skriptov Huggingface (machine translation) - mt5-base, llama-7B-4bit . Musíte nainštalovať transformers zo zdrojákov. Musíte si vytvoriť nové virtuálne prostredie a najprv nainštalovať pytorch.
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
Stretnutie 15.12.2023
|
Stretnutie 15.12.2023
|
||||||
|
|
||||||
Stav:
|
Stav:
|
||||||
@ -32,7 +54,7 @@ Stav:
|
|||||||
|
|
||||||
Úlohy:
|
Úlohy:
|
||||||
|
|
||||||
- Z webu získajte vhodnú sadu otázok a odpovedí. Uložte ju vo formáte json - jeden dokument na jede riadok. Využite Váš scraper. Ako zdroj skúste použiť Otázky zákazníkov z GymBeam. Uložte - v jednom dokumente by mal byť informácie o produktem otázky aj odpovede. Ak sa to nepodarí, zamerajte sa na iný zdroj dát. Napríklad https://www.modrastrecha.sk/forum/ , alebo https://www.modrykonik.sk/forum.
|
- Z webu získajte vhodnú sadu otázok a odpovedí. Uložte ju vo formáte json - jeden dokument na jede riadok. Využite Váš scraper. Ako zdroj skúste použiť Otázky zákazníkov z GymBeam. Uložte - v jednom dokumente by mal byť informácie o produktem otázky aj odpovede. Ak sa to nepodarí, zamerajte sa na iný zdroj dát. Napríklad https://www.modrastrecha.sk/forum/ , alebo https://www.modrykonik.sk/forum.
|
||||||
- Pripravte dáta do vhodnej podoby a natrénujte generatívny model - ChatGPT, T5-SMALL,
|
- Pripravte dáta do vhodnej podoby a natrénujte generatívny model - ChatGPT, T5-SMALL,
|
||||||
- Vyhoddnotte všetky modely, výsledky sumarizujte v tabuľkách. Experimenty opíšte do práce.
|
- Vyhoddnotte všetky modely, výsledky sumarizujte v tabuľkách. Experimenty opíšte do práce.
|
||||||
- Urobte si repozitár bp2024 na git.kemt.fei.tuke.sk. Skripty dávajte na git.
|
- Urobte si repozitár bp2024 na git.kemt.fei.tuke.sk. Skripty dávajte na git.
|
||||||
|
Loading…
Reference in New Issue
Block a user