zpwiki/pages/students/2023/maksym_zatirka/README.md

77 lines
2.4 KiB
Markdown

---
title: Maksym Zatirka
published: true
taxonomy:
category: [bp2026]
tag: [nlp,graph,db]
author: Daniel Hladek
---
rok začiatku štúdia: 2023
študent KM
# Bakalárska práca 2026
Téma:
Grafová databáza pre podporu generovania slovenského jazyka
Ciele:
Vytvorte databázu pre vyhľadávanie v rozsudkoch s využitím grafovej informácie.
Stretnutie 7.11.
Stav:
- Prečítané články
- Vyskúšaná Neo4J a Python.
- Vyskúšaný tutoriál lagchain, intro do Neo4J.
Úlohy:
- Pokračujte v teoretickej príprave. Pridajte písomné poznámky z článkov a tutoriálov do práce.
- Vytvorte znalostný graf, ktorý vyjadruje slovenské právne predpisy a vložte ho do databázy.
- Oboznámte sa s obsahom slov-lex.sk a navrhnite štruktúru znalostného grafu pre vyjadrenie vzťahov medzi právnymi predpismi. Aké entity a aké vzťahy tam existujú? Napr. zákon má číslo, má názov.
- Vytvorte skript, ktorý spracuje HTML súbory zo slov-lex a vytvorí znalostný graf vo formáte Neo4j. Na parsovanie html možno bude stačiť BeautifulSoup.
- Bol aktivovaný prístup na server quadro ku súborom z slov-lex.sk .
- Skripty dávajte na GIT.
Zásobník úloh:
- Využite znalostný graf pri RAG a vyhľadávaní. Spolupráca Matej Ščišľak.
Stretnutie 2.10.
Úlohy:
- Prejdite si tutoriál https://python.langchain.com/docs/tutorials/rag/
- Prejdite si tutoriály https://neo4j.com/docs/getting-started/appendix/tutorials/tutorials-overview/
- Zistite, ako vieme využiť grafy pri RAG - ako skombinovať langchain a neo4j
- Pokračujte v štúdiu Python
- Prečítajte si články https://arxiv.org/abs/2408.08921 a https://ieeexplore.ieee.org/abstract/document/10771030 a robte si poznámky.
Zásobník úloh:
- Pripravte databázu znalosti zo súdnej domény pre zlepšenie vyhľadávania v rozsudkoch.
Predbežné úlohy:
- Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
- Poučte sa o strojovom účení. Dive into deep learning.
- Zistite čo je to Retrieval Augmented Generation a napíšte si o tom poznámky
- Pozrite si knižnicu [llamaindex](https://developers.llamaindex.ai/python/framework/).
- Zistite čo je to [znalostný graf](https://en.wikipedia.org/wiki/Knowledge_graph)
- Zistite ako funguje databáza Neo4J.
- Zistite čo je to SparkQL.
- Napíšte si poznámky z vecí ktoré ste sa naučili. Využívajte odborné články, ktoré nájdete na google scholar.