| .. | ||
| README.md | ||
| title | published | taxonomy | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Maksym Zatirka | true |
|
rok začiatku štúdia: 2023
študent KM
Bakalárska práca 2026
Téma:
Grafová databáza pre podporu generovania slovenského jazyka
Zadanie:
- Vypracujte prehľad metód podpory generovania prirodzeného jazyka pomocou znalostných grafov.
- Zostavte znalostný graf pre slovenské právo a vložte ho do vybranej grafovej databázy.
- Navrhnite a vytvorte inteligentného agenta, ktorý využije vytvorený znalostný graf.
- Vyhodnoťte agenta, identifikujte jeho slabé miesta a navrhnite zlepšenia pre prácu so znalostným grafom.
Ciele:
Vytvorte databázu pre vyhľadávanie v právnych predpisoch s využitím grafovej informácie.
Stretnutie 4.2.
- Sú stiahnuté predpisy za rok 2024.
- Hotový skript na transformáciu HTML do grafovej databázy.
- Súbory sú na https://git.kpi.fei.tuke.sk/kpi-zp/2026/bp.maksym.zatirka/workspace/grafova-databaza-pre-podporu-generovania-slovenskeho-jazyka
Úlohy:
- Použite model, prístupný cez OpenAI completions API.
- Agent by mal vedieť vyhľadávať v zákonoch aj v súvisiacich predpisoch. Ku otázke zistite súvisiace právne predpisy z grafovej databázy. Porovnajte to s odpoveďou modelu.
- Vytvorte aj jednoduché rozhranie ku agentovi. Rozhranie sa da riešiť ako modul do openwebui.
- Napíšte niekoľko vzorových scenárov.
- Zatiaľ použijete svoju databázu neo4j, neskôr prirobím databazu ku ui.tukekemt.xyz
- Pokračujte v práci na texte BP - využitie znalostných grafov v LLM.
- Rozšírte databázu pravidiel.
Stretnutie 7.11.
Stav:
- Prečítané články
- Vyskúšaná Neo4J a Python.
- Vyskúšaný tutoriál lagchain, intro do Neo4J.
Úlohy:
- Pokračujte v teoretickej príprave. Pridajte písomné poznámky z článkov a tutoriálov do práce.
- Vytvorte znalostný graf, ktorý vyjadruje slovenské právne predpisy a vložte ho do databázy.
- Oboznámte sa s obsahom slov-lex.sk a navrhnite štruktúru znalostného grafu pre vyjadrenie vzťahov medzi právnymi predpismi. Aké entity a aké vzťahy tam existujú? Napr. zákon má číslo, má názov.
- Vytvorte skript, ktorý spracuje HTML súbory zo slov-lex a vytvorí znalostný graf vo formáte Neo4j. Na parsovanie html možno bude stačiť BeautifulSoup.
- Bol aktivovaný prístup na server quadro ku súborom z slov-lex.sk .
- Skripty dávajte na GIT.
Zásobník úloh:
- Využite znalostný graf pri RAG a vyhľadávaní. Spolupráca Matej Ščišľak.
Stretnutie 2.10.
Úlohy:
- Prejdite si tutoriál https://python.langchain.com/docs/tutorials/rag/
- Prejdite si tutoriály https://neo4j.com/docs/getting-started/appendix/tutorials/tutorials-overview/
- Zistite, ako vieme využiť grafy pri RAG - ako skombinovať langchain a neo4j
- Pokračujte v štúdiu Python
- Prečítajte si články https://arxiv.org/abs/2408.08921 a https://ieeexplore.ieee.org/abstract/document/10771030 a robte si poznámky.
Zásobník úloh:
- Pripravte databázu znalosti zo súdnej domény pre zlepšenie vyhľadávania v rozsudkoch.
Predbežné úlohy:
- Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
- Poučte sa o strojovom účení. Dive into deep learning.
- Zistite čo je to Retrieval Augmented Generation a napíšte si o tom poznámky
- Pozrite si knižnicu llamaindex.
- Zistite čo je to znalostný graf
- Zistite ako funguje databáza Neo4J.
- Zistite čo je to SparkQL.
- Napíšte si poznámky z vecí ktoré ste sa naučili. Využívajte odborné články, ktoré nájdete na google scholar.