forked from KEMT/zpwiki
		
	Update 'pages/students/2020/vladyslav_krupko/README.md'
This commit is contained in:
		
							parent
							
								
									a3d49dc7a9
								
							
						
					
					
						commit
						9764b95549
					
				| @ -24,6 +24,28 @@ Ciele: | ||||
| 
 | ||||
| - Dotrénovať ChatGPT alebo iný generatívny model pre vlastnú databázu otázok a odpovedí. | ||||
| 
 | ||||
| Stretnutie 29.1.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Prezentácia je. | ||||
| - Získané dáta z GymBeam. Selenium Scraper je veľmi pomalý, nevieme prečo. | ||||
| - Vyskúšané ChatGPT API s dátami čo máme. Odpoveď je zatiaľ po anglicky. | ||||
| - Na prevod z csv do json je použitá LLAMA. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Na vyhdonotenie je potrebné rozdeliť dáta na dve časti, trénovaciu a testovaciu. Testovacie dáta vynechajte z trénovania.  Sledujte čo generuje model a porovnajte to s tým čo je očakávané v dátach. Ako metriku porovnania použite ROUGE alebo BLEU. | ||||
| - Výsledky dajte do tabuľky do práce. | ||||
| - Pokračujte v písaní práce. | ||||
| - Pokračujte v získavaní a príprave dát. | ||||
| 
 | ||||
| Zásobník: | ||||
| 
 | ||||
| - Na rovnakých dátach natrénujte "lokálny model" pomocou skriptov Huggingface (machine translation) - mt5-base, llama-7B-4bit . Musíte nainštalovať transformers zo zdrojákov. Musíte si vytvoriť nové virtuálne prostredie a najprv nainštalovať pytorch. | ||||
|   | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 15.12.2023 | ||||
| 
 | ||||
| Stav: | ||||
| @ -32,7 +54,7 @@ Stav: | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Z webu získajte vhodnú sadu otázok a odpovedí. Uložte ju vo formáte json - jeden dokument na jede riadok. Využite Váš scraper. Ako zdroj skúste použiť Otázky zákazníkov z GymBeam. Uložte  - v jednom dokumente by mal byť informácie o produktem otázky aj odpovede. Ak sa to nepodarí, zamerajte sa na iný zdroj dát. Napríklad https://www.modrastrecha.sk/forum/  , alebo https://www.modrykonik.sk/forum. | ||||
| - Z webu získajte vhodnú sadu otázok a odpovedí. Uložte ju vo formáte json - jeden dokument na jede riadok. Využite Váš scraper. Ako zdroj skúste použiť Otázky zákazníkov z GymBeam. Uložte  - v jednom dokumente by mal byť informácie o produktem otázky aj odpovede. Ak sa to nepodarí, zamerajte sa na iný zdroj dát. Napríklad https://www.modrastrecha.sk/forum/ , alebo https://www.modrykonik.sk/forum. | ||||
| - Pripravte dáta do vhodnej podoby a natrénujte generatívny model - ChatGPT, T5-SMALL,  | ||||
| - Vyhoddnotte všetky modely, výsledky sumarizujte v tabuľkách. Experimenty opíšte do práce. | ||||
| - Urobte si repozitár bp2024 na git.kemt.fei.tuke.sk. Skripty dávajte na git. | ||||
|  | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user