forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			127 lines
		
	
	
		
			3.9 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			127 lines
		
	
	
		
			3.9 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
---
 | 
						|
title: Yevhenii Leonov
 | 
						|
published: true
 | 
						|
taxonomy:
 | 
						|
    category: [vp2024,bp2025]
 | 
						|
    tag: [rag,nlp]
 | 
						|
    author: Daniel Hladek
 | 
						|
---
 | 
						|
 | 
						|
 | 
						|
rok začiatku štúdia: 2022
 | 
						|
 | 
						|
# Bakalárska práca 2025
 | 
						|
 | 
						|
 | 
						|
Téma:
 | 
						|
 | 
						|
 | 
						|
Vyhodnotenie generovania slovenského jazyka s pomocou vyhľadávania
 | 
						|
 | 
						|
Predbežné zadanie:
 | 
						|
 | 
						|
1. Vypracujte prehľad metód a modelov  generovania jazyka s pomocou vyhľadávania.
 | 
						|
2. Vypracujte prehľad metód ich vyhodnotenia. 
 | 
						|
3. Vyskúšajte a vyhodnoťte vybranú metódu generovania jazyka s pomocou vyhľadávania.
 | 
						|
4. Navrhnite zlepšenia pre vybranú metódu generovania odpovede. 
 | 
						|
 | 
						|
 | 
						|
Návrh na tému:
 | 
						|
 | 
						|
- Vyhodnotenie systémov RAG
 | 
						|
 | 
						|
Spolupráca Oleh Poiasnik
 | 
						|
 | 
						|
Stretnutie 4.2.2025
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Vyriešené Závislosti projektu - cez Anaconda
 | 
						|
- Answer relevancy, využitý OpenAI token
 | 
						|
- Pripravené testovacie otázky a prepojené s RAG systémom Poiasnik.
 | 
						|
- Písomná časť - nie je pokrok.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Pracujte na písomnej časti.
 | 
						|
- Rozšírte testovaciu množinu.
 | 
						|
- Opíšte testovací scenár. Výsledky zapíšte do tabuľky.
 | 
						|
 | 
						|
Stav 8.11.2024:
 | 
						|
 | 
						|
- Práca na úlohách z minulého stretnutia, vyskúšaný RAGAS. 
 | 
						|
- Nainštalovaný a vyskúšaný systém od p. Poiasnika.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Pripravte "vzorovú" množinu na testovanie.
 | 
						|
- Pripravte testovaciu množinu. Množina by sa mala skladať z čo najväčšieho množstva príkladov. 
 | 
						|
- Vyskúšajte testovaciu množinu pomocou RAGAS a modelov ktoré používa p. Poiasnik. Vyhodnotte modely pomocou množiny.
 | 
						|
- Kódy dávajte na GIT (napr. branch alebo adresár p Poiasnik GIT).
 | 
						|
- Pokračujte v písomných úlohách. Hľadajte články cez scholar a píšte si poznámky. Do BP.
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- Pripravte (nakódujte, odkopírovať) postup vyhľadávania podobný ako "reálny systém", ale využíval RAGAS.
 | 
						|
- Pripravte testovacie API pre RAG systém. Bude to funkcia alebo URL cez ktorú sa bude dať systém testovať. 
 | 
						|
- Pomocou metriky a množiny vyhodnotte reálny systém.
 | 
						|
 | 
						|
 | 
						|
Stretnutie 11.10.2024:
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Urobené poznámky na tému RAG
 | 
						|
- Nainštalované PrivateGPT, Ollama na Windowse
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- [x] Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. Optimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
 | 
						|
- [x] Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
 | 
						|
- [ ] Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky. 
 | 
						|
- [-] Zistite a opíšte aké metriky sa používajú. Ku každej metrike je potrebný odkaz na článok. 
 | 
						|
 | 
						|
Zásobník úloh:
 | 
						|
 | 
						|
- [-] Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede.
 | 
						|
- [ ] Napíšte príklady alebo použite generatívny model
 | 
						|
 | 
						|
 | 
						|
 | 
						|
# Vedecký projekt  2024
 | 
						|
 | 
						|
 | 
						|
RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation
 | 
						|
 | 
						|
 | 
						|
Úlohy na semester:
 | 
						|
 | 
						|
- Zistite čo je to Retrieval Augmented Generation a napíšte o tom správu.
 | 
						|
- Naučte sa základy jazyka Python.
 | 
						|
- Podrobne si prejdite minimálne dva tutoriály.
 | 
						|
- Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli.
 | 
						|
- Nainštalujte si a vyskúšajte softvér PrivateGPT
 | 
						|
 | 
						|
Stretnutie 12.4.
 | 
						|
 | 
						|
Stav:
 | 
						|
 | 
						|
- Učenie sa Pythonu, nainštalovaná Anaconda.
 | 
						|
- Urobené stručné poznámky o RAG o BERT a  o GPT.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- Pokračujte v otvorených úlohách.
 | 
						|
- Vyskúšajte systém OLLAMA. Keď to nejde na Windows, vyskúšajte Ubuntu WSL(2). 
 | 
						|
- Pracujte na "článku".
 | 
						|
 | 
						|
 | 
						|
Stretnutie 22.3.
 | 
						|
 | 
						|
Úlohy:
 | 
						|
 | 
						|
- [-] Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3.
 | 
						|
- [-] Nainštalujte si PrivateGPT. Zistite ako  funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou  SentenceTranformers. Napíšte o tom poznámky.
 | 
						|
- [-] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
 | 
						|
 |