--- title: Yevhenii Leonov published: true taxonomy: category: [vp2024,bp2025] tag: [rag,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2022 # Bakalárska práca 2025 Téma: Generovanie slovenského jazyka s pomocou vyhľadávania Predbežné zadanie: 1. Vypracujte prehľad metód a modelov generovania jezyka s pomocou vyhľadávania 2. Vyskúšajte a vyhodnotte vybranú metódu generovania jazyka s pomocou vyhľadávania. Návrh na tému: - Vyhodnotenie systémov RAG Spolupráca Oleh Poiasnik Stav: - Práca na úlohách z minulého stretnutia, vyskúšaný RAGAS. - Nainštalovaný a vyskúšaný systém od p . Poiasnika. Úlohy: - Pripravte "vzorovú" množinu na testovanie. - Pripravte testovaciu množinu. Množina by sa mala skladať z čo najväčšieho množstva príkladov. - Vyskúšajte testovaciu množinu pomocou RAGAS a modelov ktoré používa p. Poiasnik. Vyhodnotte modely pomocou množiny. - Kódy dávajte na GIT (napr. branch alebo adresár p Poiasnik GIT). - Pokračujte v písomných úlohách. Hľadajte články cez scholar a píšte si poznámky. Do BP. Zásobník úloh: - Pripravte (nakódujte, odkopírovať) postup vyhľadávania podobný ako "reálny systém", ale využíval RAGAS. - Pripravte testovacie API pre RAG systém. Bude to funkcia alebo URL cez ktorú sa bude dať systém testovať. - Pomocou metriky a množiny vyhodnotte reálny systém. Stretnutie 11.1.: Stav: - Urobené poznámky na tému RAG - Nainštalované PrivateGPT, Ollama na Windowse Úlohy: - [x] Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. Optimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia. - [x] Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html - [ ] Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky. - [-] Zistite a opíšte aké metriky sa používajú. Ku každej metrike je potrebný odkaz na článok. Zásobník úloh: - [-] Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede. - [ ] Napíšte príklady alebo použite generatívny model # Vedecký projekt 2024 RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation Úlohy na semester: - Zistite čo je to Retrieval Augmented Generation a napíšte o tom správu. - Naučte sa základy jazyka Python. - Podrobne si prejdite minimálne dva tutoriály. - Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli. - Nainštalujte si a vyskúšajte softvér PrivateGPT Stretnutie 12.4. Stav: - Učenie sa Pythonu, nainštalovaná Anaconda. - Urobené stručné poznámky o RAG o BERT a o GPT. Úlohy: - Pokračujte v otvorených úlohách. - Vyskúšajte systém OLLAMA. Keď to nejde na Windows, vyskúšajte Ubuntu WSL(2). - Pracujte na "článku". Stretnutie 22.3. Úlohy: - [-] Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3. - [-] Nainštalujte si PrivateGPT. Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky. - [-] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.