dmytro_ushatenko/pages/students/2022/yevhenii_leonov/README.md

110 lines
3.4 KiB
Markdown

---
title: Yevhenii Leonov
published: true
taxonomy:
category: [vp2024,bp2025]
tag: [rag,nlp]
author: Daniel Hladek
---
rok začiatku štúdia: 2022
# Bakalárska práca 2025
Téma:
Generovanie slovenského jazyka s pomocou vyhľadávania
Predbežné zadanie:
1. Vypracujte prehľad metód a modelov generovania jezyka s pomocou vyhľadávania
2. Vyskúšajte a vyhodnotte vybranú metódu generovania jazyka s pomocou vyhľadávania.
Návrh na tému:
- Vyhodnotenie systémov RAG
Spolupráca Oleh Poiasnik
Stav:
- Práca na úlohách z minulého stretnutia, vyskúšaný RAGAS.
- Nainštalovaný a vyskúšaný systém od p . Poiasnika.
Úlohy:
- Pripravte "vzorovú" množinu na testovanie.
- Pripravte testovaciu množinu. Množina by sa mala skladať z čo najväčšieho množstva príkladov.
- Vyskúšajte testovaciu množinu pomocou RAGAS a modelov ktoré používa p. Poiasnik. Vyhodnotte modely pomocou množiny.
- Kódy dávajte na GIT (napr. branch alebo adresár p Poiasnik GIT).
- Pokračujte v písomných úlohách. Hľadajte články cez scholar a píšte si poznámky. Do BP.
Zásobník úloh:
- Pripravte (nakódujte, odkopírovať) postup vyhľadávania podobný ako "reálny systém", ale využíval RAGAS.
- Pripravte testovacie API pre RAG systém. Bude to funkcia alebo URL cez ktorú sa bude dať systém testovať.
- Pomocou metriky a množiny vyhodnotte reálny systém.
Stretnutie 11.1.:
Stav:
- Urobené poznámky na tému RAG
- Nainštalované PrivateGPT, Ollama na Windowse
Úlohy:
- [x] Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. Optimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
- [x] Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
- [ ] Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky.
- [-] Zistite a opíšte aké metriky sa používajú. Ku každej metrike je potrebný odkaz na článok.
Zásobník úloh:
- [-] Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede.
- [ ] Napíšte príklady alebo použite generatívny model
# Vedecký projekt 2024
RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation
Úlohy na semester:
- Zistite čo je to Retrieval Augmented Generation a napíšte o tom správu.
- Naučte sa základy jazyka Python.
- Podrobne si prejdite minimálne dva tutoriály.
- Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli.
- Nainštalujte si a vyskúšajte softvér PrivateGPT
Stretnutie 12.4.
Stav:
- Učenie sa Pythonu, nainštalovaná Anaconda.
- Urobené stručné poznámky o RAG o BERT a o GPT.
Úlohy:
- Pokračujte v otvorených úlohách.
- Vyskúšajte systém OLLAMA. Keď to nejde na Windows, vyskúšajte Ubuntu WSL(2).
- Pracujte na "článku".
Stretnutie 22.3.
Úlohy:
- [-] Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3.
- [-] Nainštalujte si PrivateGPT. Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky.
- [-] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.