diff --git a/pages/students/2022/andrii_pervashov/README.md b/pages/students/2022/andrii_pervashov/README.md index f4c7bd30..05ba9bf7 100644 --- a/pages/students/2022/andrii_pervashov/README.md +++ b/pages/students/2022/andrii_pervashov/README.md @@ -16,15 +16,33 @@ Návrh na tému: Prepis reči pre tvorbu štruktúrovaného zdravotného záznamu -Úlohy: +Ciele: - Vytvorte systém pre prepis reči a naplnenie formulára pomocou lokálnych jazykových modelov -- Dotrénujte jazykový model do slovenskej medicínskej domény +- Zlepšite jazykový model pre extraktiu štruktúrovaných informácií z medicínskej alebo súdnej domény. + +Úlohy: + +- Oboznámte sa so systémom OpenWebUI - prečítajte si dokumentáciu, príp. spravte si svoju inštanciu. +- Vytvorte jedno alebo viacero rozšírení, ktoré umožnia napňlňať formuláre pomocou rečového vstupu. +- Agent by mal vedieť transformovať rečový vstup do štruktúrovanej podoby. + +Teoretické úlohy: + +- Oboznámte sa s postupmi pre dotrénovanie jazykového modelu - LORA, PEFT. +- Oboznámte sa s metódami Information Extraction. Vyhľadajte si články na túto tému a napíšte, aké metódy sa používajú. Vstupom je text v prir. jazyku, výstupom je niečo ako JSON. + + +Zásobník úloh: +- Vyskúšajte ako funguje rozpoznávanie reči cez OPeWEBUI. Navrhnute zlepšenia. +- Ako vieme zistiť, ktoré informácie nám chýbajú? + + + ## Bakalárska práca 2025 - Návrh na tému: Korekcia textu pomocou neurónových sietí diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 7df43c4e..1a60e940 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -18,6 +18,22 @@ Expertný agentový systém na podporu rozhodovania v lekárni Cieľ: - Vylepšiť agenta pre prácu so znalostným grafom - interakcie a kontraindikácie. +- Zostaviť znalostný graf z databázy príbalových letákov adc a s jeho pomocou zlepšiť generovanie odpovede. + +Úlohy: + +- Oboznámte sa s pojmami na stránke https://graphrag.com/concepts/intro-to-graphrag/ . Napíšte is poznámky. +- Vyskúšajte si softvér https://github.com/hkuds/lightrag . +- Prečítajte si článok LightRAG: Simple and Fast Retrieval-Augmented Generation +- Oboznámte sa so systémom https://docs.ragas.io/en/stable/ + +Zásobník úloh: + +- Využite školské LLM prístupné cez API. +- Pripravte skripty pre získanie (scarpovanie) databázy ADC. +- Zlepšite proces parsovania do formátu JSON. Môžete použiť systém Docling. + + # Bakalárska práca 2025 diff --git a/pages/students/2023/maksym_zatirka/README.md b/pages/students/2023/maksym_zatirka/README.md index 04b7791d..b612ac6f 100644 --- a/pages/students/2023/maksym_zatirka/README.md +++ b/pages/students/2023/maksym_zatirka/README.md @@ -30,9 +30,30 @@ Zadanie: Ciele: - Vytvorte databázu pre vyhľadávanie v právnych predpisoch s využitím grafovej informácie. +Stretnutie 6.3. + +- Parser vie rozparsovať zákony na paragrafy a odseky, vie verzie zákonov. +- Máme jednoduchého agenta, ktorý vie pracovať s grafovou databázou. + +Úlohy: + +- Pripravte vzorovú datababázy zákonov - nemusia byť všetky a vložte ju do grafovej databázy.. +- Pripravte viacero testovacích scenárov pre vyhľadávanie v zákonoch. Scenár by mal byť vo forme otázky. +- Agent by mal podľa otázky vyhľadať relevatné a súvisiace paragrafy v databáze a vygenerovať odpoveď podľa paragrafov. +- Zobrazte aj zoznam zdrojov - relevantnej časti znalostného grafu. +- Kódy dajte na GIT. Mal by tam byť parser. Aj agent. Aj stručná dokumentácia. +- Pracujte na teoretickej časti práce. Napíšte o metódach GraphRAG. Používajte články z Google Scholar. Opíšte metódu zostavenia znalostného grafu, grafovú databázu aj architektúru agenta. Opíšte výsledky experimentov v testovacích scenároch. + + +Zásobník úloh: + +- Pripravte pekné webové rozhranie. +- Pripravte deployment Vašej aplikácie - dockerfile a docker compose. + + + Stretnutie 4.2. diff --git a/pages/students/2023/rostyslav_rodzhuk/README.md b/pages/students/2023/rostyslav_rodzhuk/README.md index 982cf700..ce7ae1ce 100644 --- a/pages/students/2023/rostyslav_rodzhuk/README.md +++ b/pages/students/2023/rostyslav_rodzhuk/README.md @@ -37,6 +37,17 @@ https://github.com/RostikRd/bp2026 - Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenty - Vytvorte inteligentného agenta, ktorý by na základe dokumentov navrhol najlepšie výchovné opatrenia. +Stretnutie 6.3. + +Stav: + +- Prezentovaná teoretická časť + +Úlohy: + +- Pokračujte v písaní. +- Dajte zdrojáky na GIT. + Stretnutie 6.2.2026 Stav: diff --git a/pages/students/2023/simona_bobrovcanova/README.md b/pages/students/2023/simona_bobrovcanova/README.md index 2693ce7b..57b1f6e9 100644 --- a/pages/students/2023/simona_bobrovcanova/README.md +++ b/pages/students/2023/simona_bobrovcanova/README.md @@ -30,6 +30,23 @@ Ciele: Zlepšite spracovanie slovenských právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov. +Stretnutie 27.2.2026 + +Stav: + +- Malé modely majú príliš maly kontext. +- Vyskúšaná hierarchická sumarizácia - text je rozdelený na časti a potom sa vykoná sumár zo sumárov. Funguje to "dobre". +- Práca na texte pokračuje +- Bol poskytnutý prístup na ui.tukekemt.xyz + +Úlohy: + +- Dajte skripty na GIT. +- Vyskúšajte aj sumarizáciu pomocou API modelu. +- Implementujte porovnanie pomocu ROUGE a BLEU. +- Implementujte vyuhodnotenie aj pomocu DeepEval https://deepeval.com/docs/metrics-summarization. +- Pokračujte v písaní - opíšte experimenty, výsledky dajte do tabuľky a okomentujte. + Stretnutie 5.12.2025 Stav: diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index d654fe76..c7d68462 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -24,6 +24,20 @@ Zadanie: 3. Pomocou crawlera získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 4. Analyzujte získané dáta, priebeh ich sťahovania a navrhnite zlepšenia procesu získavania textových dát. +Stretnutie 13.3.2025 + +Stav: + +- Zozbieraných cca 450MB textu. +- Vylepšený text BP + +Úlohy: + +- Pridajte funciu "dolovania" domén zo získaného textu. +- Dajte kódy na GIT +- Pokračujte v dolovaní textu, min. 5GB +- zlepšite deduplikáciu a boilereplate removal - napr. justext. + Stretnutie 4.2.2025 Stav: @@ -39,7 +53,6 @@ Stav: - Stretnutie 18.12.2025 Stav: