forked from KEMT/zpwiki
Compare commits
12 Commits
| Author | SHA1 | Date | |
|---|---|---|---|
| c740f5756c | |||
| d74b9c7862 | |||
| 53362832e9 | |||
| 7e39c02114 | |||
| 3a79db0090 | |||
| ae55844e06 | |||
| 816d074fc2 | |||
| 925cbe6da8 | |||
| 02bd2f80a8 | |||
| 76526659ec | |||
| 8914727cf8 | |||
| cbfa1e7f81 |
35
pages/interns/bogdan_paul_chis/README.md
Normal file
35
pages/interns/bogdan_paul_chis/README.md
Normal file
@ -0,0 +1,35 @@
|
||||
---
|
||||
title: Bogdan Paul Chiș
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [erasmus]
|
||||
tag: [nlp, ie, rag, medical]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
||||
ERASMUS Intern Spring 2026, 20 March - 21 May (62 days)
|
||||
|
||||
Topic:
|
||||
|
||||
(multilingual) Triplet extraction from medical data
|
||||
|
||||
Goal:
|
||||
|
||||
- Construct a knowledge graph from medical package inserts in multiple languages
|
||||
- Utilize the graph in an intelligent agent that recommends medication.
|
||||
|
||||
Tasks:
|
||||
|
||||
- Learn intelligent agents and generative models - OpenAI API, Agent frameworks, RAG systems.
|
||||
- Learn about knowledge graphs and GraphRAG. Read several research papers.
|
||||
- Find several existing drug knowledge databases. Identify possible entities and relations.
|
||||
- Prepare a Python based workflow, use git code repository
|
||||
- Try Light RAG - Simple RAG.
|
||||
- Scrape package inserts and parse the data.
|
||||
- Index the data and write a script that extracts a knowledge graph from data.
|
||||
- Visualize the graph
|
||||
- Prepare an agent that utilizes the unstructured data and graph-data.
|
||||
- Evaluate the agent using DeepEval or RAGAS.
|
||||
- Write a report
|
||||
- Put all code to GIT
|
||||
|
||||
@ -16,15 +16,33 @@ Návrh na tému:
|
||||
|
||||
Prepis reči pre tvorbu štruktúrovaného zdravotného záznamu
|
||||
|
||||
Úlohy:
|
||||
Ciele:
|
||||
|
||||
- Vytvorte systém pre prepis reči a naplnenie formulára pomocou lokálnych jazykových modelov
|
||||
- Dotrénujte jazykový model do slovenskej medicínskej domény
|
||||
- Zlepšite jazykový model pre extraktiu štruktúrovaných informácií z medicínskej alebo súdnej domény.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Oboznámte sa so systémom OpenWebUI - prečítajte si dokumentáciu, príp. spravte si svoju inštanciu.
|
||||
- Vytvorte jedno alebo viacero rozšírení, ktoré umožnia napňlňať formuláre pomocou rečového vstupu.
|
||||
- Agent by mal vedieť transformovať rečový vstup do štruktúrovanej podoby.
|
||||
|
||||
Teoretické úlohy:
|
||||
|
||||
- Oboznámte sa s postupmi pre dotrénovanie jazykového modelu - LORA, PEFT.
|
||||
- Oboznámte sa s metódami Information Extraction. Vyhľadajte si články na túto tému a napíšte, aké metódy sa používajú. Vstupom je text v prir. jazyku, výstupom je niečo ako JSON.
|
||||
|
||||
|
||||
Zásobník úloh:
|
||||
- Vyskúšajte ako funguje rozpoznávanie reči cez OPeWEBUI. Navrhnute zlepšenia.
|
||||
- Ako vieme zistiť, ktoré informácie nám chýbajú?
|
||||
|
||||
|
||||
|
||||
|
||||
## Bakalárska práca 2025
|
||||
|
||||
|
||||
|
||||
Návrh na tému:
|
||||
|
||||
Korekcia textu pomocou neurónových sietí
|
||||
|
||||
@ -18,6 +18,22 @@ Expertný agentový systém na podporu rozhodovania v lekárni
|
||||
Cieľ:
|
||||
|
||||
- Vylepšiť agenta pre prácu so znalostným grafom - interakcie a kontraindikácie.
|
||||
- Zostaviť znalostný graf z databázy príbalových letákov adc a s jeho pomocou zlepšiť generovanie odpovede.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Oboznámte sa s pojmami na stránke https://graphrag.com/concepts/intro-to-graphrag/ . Napíšte is poznámky.
|
||||
- Vyskúšajte si softvér https://github.com/hkuds/lightrag .
|
||||
- Prečítajte si článok LightRAG: Simple and Fast Retrieval-Augmented Generation
|
||||
- Oboznámte sa so systémom https://docs.ragas.io/en/stable/
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Využite školské LLM prístupné cez API.
|
||||
- Pripravte skripty pre získanie (scarpovanie) databázy ADC.
|
||||
- Zlepšite proces parsovania do formátu JSON. Môžete použiť systém Docling.
|
||||
|
||||
|
||||
|
||||
|
||||
# Bakalárska práca 2025
|
||||
|
||||
@ -30,9 +30,30 @@ Zadanie:
|
||||
Ciele:
|
||||
|
||||
|
||||
|
||||
Vytvorte databázu pre vyhľadávanie v právnych predpisoch s využitím grafovej informácie.
|
||||
|
||||
Stretnutie 6.3.
|
||||
|
||||
- Parser vie rozparsovať zákony na paragrafy a odseky, vie verzie zákonov.
|
||||
- Máme jednoduchého agenta, ktorý vie pracovať s grafovou databázou.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pripravte vzorovú datababázy zákonov - nemusia byť všetky a vložte ju do grafovej databázy..
|
||||
- Pripravte viacero testovacích scenárov pre vyhľadávanie v zákonoch. Scenár by mal byť vo forme otázky.
|
||||
- Agent by mal podľa otázky vyhľadať relevatné a súvisiace paragrafy v databáze a vygenerovať odpoveď podľa paragrafov.
|
||||
- Zobrazte aj zoznam zdrojov - relevantnej časti znalostného grafu.
|
||||
- Kódy dajte na GIT. Mal by tam byť parser. Aj agent. Aj stručná dokumentácia.
|
||||
- Pracujte na teoretickej časti práce. Napíšte o metódach GraphRAG. Používajte články z Google Scholar. Opíšte metódu zostavenia znalostného grafu, grafovú databázu aj architektúru agenta. Opíšte výsledky experimentov v testovacích scenároch.
|
||||
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Pripravte pekné webové rozhranie.
|
||||
- Pripravte deployment Vašej aplikácie - dockerfile a docker compose.
|
||||
|
||||
|
||||
|
||||
|
||||
Stretnutie 4.2.
|
||||
|
||||
|
||||
@ -37,6 +37,17 @@ https://github.com/RostikRd/bp2026
|
||||
- Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenty
|
||||
- Vytvorte inteligentného agenta, ktorý by na základe dokumentov navrhol najlepšie výchovné opatrenia.
|
||||
|
||||
Stretnutie 6.3.
|
||||
|
||||
Stav:
|
||||
|
||||
- Prezentovaná teoretická časť
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračujte v písaní.
|
||||
- Dajte zdrojáky na GIT.
|
||||
|
||||
Stretnutie 6.2.2026
|
||||
|
||||
Stav:
|
||||
|
||||
@ -24,6 +24,20 @@ Zadanie:
|
||||
3. Pomocou crawlera získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
||||
4. Analyzujte získané dáta, priebeh ich sťahovania a navrhnite zlepšenia procesu získavania textových dát.
|
||||
|
||||
Stretnutie 13.3.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Zozbieraných cca 450MB textu.
|
||||
- Vylepšený text BP
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pridajte funciu "dolovania" domén zo získaného textu.
|
||||
- Dajte kódy na GIT
|
||||
- Pokračujte v dolovaní textu, min. 5GB
|
||||
- zlepšite deduplikáciu a boilereplate removal - napr. justext.
|
||||
|
||||
Stretnutie 4.2.2025
|
||||
|
||||
Stav:
|
||||
@ -39,7 +53,6 @@ Stav:
|
||||
|
||||
|
||||
|
||||
|
||||
Stretnutie 18.12.2025
|
||||
|
||||
Stav:
|
||||
|
||||
Loading…
Reference in New Issue
Block a user