--- title: Valerii Kutsenko published: true taxonomy: category: [vp2024,bp2025] tag: [rag,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2022 # Bakalárska práca 2025 Generovanie otázok zo zadaného textu. Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation Nové nápady: - Vytvorte systém pre generovanie otázok o zadanom texte. - Vytvorte umelo generovanú množinu otázok a odpovedí. - Pomocou umelej množiny zlepšite existujúci systém pre otázky a odpovede. Ako na to: - Natrénujte generatívny model pre generovanie otázok. Použite existujúci skript a množinu SKQUAD. - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom. - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. Úlohy: - Zistite, aké sú možné prístupy ku generovaniu otázok pomocou generatívneho modelu a aké sú možné prístupy k overeniu vygenerovanej otázky. - Pozrite si repozitár https://github.com/patil-suraj/question_generation - Pozrite si repozitár https://github.com/gauthierdmn/question_generation - Pozrite si článok https://telrp.springeropen.com/articles/10.1186/s41039-021-00151-1 - Oboznámte sa s DP Ondrej Megela a článok https://aclanthology.org/2023.rocling-1.20.pdf - Oboznámte sa s knižnicou HF transformers - vyskúšajte si nejaký tutoriál. - Zistite, ako funguje model T5. - Pozrite si skript `generate/run_qg.py` v [repo](https://git.kemt.fei.tuke.sk/dano/slovakretrieval) a vyskúšajte ho. - Čítajte súvisiace odborné články a robte si poznámky. - Urobte si repozitár na git.kemt a dávajte tam Vaše skripty. - Na experimenty použite https://colab.research.google.com/ Staré Nápady: - Možno pomocou vytvorenia-prekladu vlastnej trénovacej databázy. - alebo pomocou nekontrolovaného učenia, reps. augmentácie alebo generovania. - Alebo zber trénovacích dát z webového korpusu. - Sústrediť sa na vektrovú reprezentáciu dokumentov? Úlohy na semester - "nepovinné, oficiálne sa to začne na zimný semester 2024" - Zistite čo je to Retrieval Augmented Generation a napíšte o tom správu. - Naučte sa základy jazyka Python. - Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli. Stretnutie 9.5.24 Stav: - Naštudované Deep dive intoi Python a dl2ai, niečo o RAG. Úlohy: - Zistite, ako funguje [Sentence Transformers](https://sbert.net/). Pozrite si dokumentáciu. Vyskúšajte zopakovať príklady pre slovenské texty a so [slovenským modelom](https://huggingface.co/TUKE-DeutscheTelekom/slovakbert-skquad-mnlr). - Urobe si poznámky. Stretnutie 22.3. Úlohy: - Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3. - Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. - Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky. - Skúste si tento tutoriál o [LangChain](https://python.langchain.com/docs/get_started/quickstart) Zásobník úloh: - Nainštalujte si PrivateGPT.