zpwiki/pages/students/2023/maksym_zatirka/README.md

2.4 KiB

title published taxonomy
Maksym Zatirka true
category tag author
bp2026
nlp
graph
db
Daniel Hladek

rok začiatku štúdia: 2023

študent KM

Bakalárska práca 2026

Téma:

Grafová databáza pre podporu generovania slovenského jazyka

Ciele:

Vytvorte databázu pre vyhľadávanie v rozsudkoch s využitím grafovej informácie.

Stretnutie 7.11.

Stav:

  • Prečítané články
  • Vyskúšaná Neo4J a Python.
  • Vyskúšaný tutoriál lagchain, intro do Neo4J.

Úlohy:

  • Pokračujte v teoretickej príprave. Pridajte písomné poznámky z článkov a tutoriálov do práce.
  • Vytvorte znalostný graf, ktorý vyjadruje slovenské právne predpisy a vložte ho do databázy.
  • Oboznámte sa s obsahom slov-lex.sk a navrhnite štruktúru znalostného grafu pre vyjadrenie vzťahov medzi právnymi predpismi. Aké entity a aké vzťahy tam existujú? Napr. zákon má číslo, má názov.
  • Vytvorte skript, ktorý spracuje HTML súbory zo slov-lex a vytvorí znalostný graf vo formáte Neo4j. Na parsovanie html možno bude stačiť BeautifulSoup.
  • Bol aktivovaný prístup na server quadro ku súborom z slov-lex.sk .
  • Skripty dávajte na GIT.

Zásobník úloh:

  • Využite znalostný graf pri RAG a vyhľadávaní. Spolupráca Matej Ščišľak.

Stretnutie 2.10.

Úlohy:

Zásobník úloh:

  • Pripravte databázu znalosti zo súdnej domény pre zlepšenie vyhľadávania v rozsudkoch.

Predbežné úlohy:

  • Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
  • Poučte sa o strojovom účení. Dive into deep learning.
  • Zistite čo je to Retrieval Augmented Generation a napíšte si o tom poznámky
  • Pozrite si knižnicu llamaindex.
  • Zistite čo je to znalostný graf
  • Zistite ako funguje databáza Neo4J.
  • Zistite čo je to SparkQL.
  • Napíšte si poznámky z vecí ktoré ste sa naučili. Využívajte odborné články, ktoré nájdete na google scholar.