Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki

This commit is contained in:
Daniel Hládek 2026-02-10 14:58:50 +01:00
commit 294ed8773d
12 changed files with 206 additions and 28 deletions

View File

@ -12,6 +12,15 @@ rok začiatku štúdia: 2021
# Diplomová práca 2026
Zvýšenie bezpečnosti veľkých jazykových modelov
Zadanie:
1. Vypracujte prehľad súčasného stavu výskumu v oblasti zvyšovania bezpečnosti veľkých jazykových modelov, vrátane identifikácie známych bezpečnostných problémov a spôsobov ich vyhodnotenia.
2. Vyberte vhodnú trénovaciu sadu a zarovnajte vybraný jazykový model s cieľom zvýšiť jeho bezpečnosť.
3. Vyberte vhodnú testovaciu sadu a vyhodnoťte bezpečnosť viacerých modelov, vrátane zarovnaného modelu.
4. Na základe experimentov predložte konkrétne odporúčania pre ďalšie zlepšenia bezpečnosti modelov v slovenskom jazyku.
Vyhodnotenie jazykových modelov
https://git.kemt.fei.tuke.sk/ah866cw/DP
@ -24,6 +33,21 @@ Možné ciele:
- Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
- Navrhnúť zlepšenia na zvýšenie bezpečnosti.
Stretnutie 3.2.
Stav:
- Dotrénovaný Slovak Mistral - DPO aj SFT
- práca na texte
- trénovacie dáta sú založené na preklade pomocou NLLB - LIbrai/do-not-answer
Úlohy:
- Vyjadrite mieru zlepšenia v jednotlivých krokoch dotrénovania modelu Slovak Mistral vzhľadom na testovaciu množinu.
- Urobte podobný proces aj pre iný model a porovnajte výsledky.
- Do práce dajte tabuľku, hyperparametre trénovania, modelov aj trénovací postup v textovej podobe.
- Pokračujte v práci na texte.
Stretnutie 19.12.2025
Stav:

View File

@ -13,6 +13,17 @@ rok začiatku štúdia: 2021
https://git.kemt.fei.tuke.sk/ms058bd/Diplomovka
Názov práce:
Agentové systémy pomocou veľkého jazykového modelu
Zadanie:
1. Vypracujte prehľad systémov generovania prirodzeného jazyka, ktoré podporujú vyhľadávanie a sú vhodné na spracovanie právnych informácií.
2. Na základe tohto prehľadu navrhnite a implementujte agentový systém, ktorý umožní vyhľadávanie v právnych dokumentoch, odpovedanie na otázky a sumarizáciu textov.
3. Vytvorte sadu vzorových úloh na testovanie systému a optimalizujte generovanie odpovedí pre úlohy, ktoré vyžadujú viacero krokov.
4. Otestujte systém na navrhnutých úlohách, vyhodnoťte jeho výkonnosť a identifikujte slabé miesta.
Ciele:
- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškach.
@ -20,6 +31,22 @@ Ciele:
- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
Stretnutie 5.2.2026
- Zväčšený index
- Problém s kvalitou vyhľadávania. Problém môžu byť tabuľky - agent ich nevidí. Parsovanie bolo z html dát cez beautifulsoup.
- Práca na texte.
Úlohy:
- Vyhodnotte Váš systém pomocou viacerých metrík DeepEval - pomocou jazykového modelu.
Zásobník úloh:
- Zlepšiť krok rozhodnovania - použiť internet, FAISS alebo API?
- Preparsovať dáta pomocou Docling.
Stretnutie 5.12.2025
- Zlepšenie parsovania a promptingu.

View File

@ -14,6 +14,19 @@ rok začiatku štúdia: 2021
Klasifikácia webových dát pre lepšie jazykové modelovanie
Repo https://git.kemt.fei.tuke.sk/mn180gd/diplomovka
Zadanie:
1. Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu.
2. Navrhnite a implementujte systém, ktorý automaticky roztriedi webové texty podľa uvedených typov a domén a zároveň vyhodnotí ich úroveň nenávisti.
3. Zostavte kvalitný všeobecný a tematický korpus vhodný na trénovanie jazykového modelu.
4. Štatisticky analyzujte výskyt jednotlivých kategórií textov a výskyt potenciálneho nenávistného obsahu.
5. Slovne vyhodnoťte navrhnutý systém a navrhnite ďalšie zlepšenia pre zvýšenie kvality trénovacích dát.
Po trénovaní modelu ho otestujte na relevantných úlohách, vyhodnoťte vplyv klasifikácie a kvality dát na výkonnosť modelu, identifikujte slabé miesta (napr. nedostatočná reprezentatívnosť domén alebo nepresná detekcia nenávisti) a navrhnite konkrétne opatrenia na ich odstránenie.
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
@ -21,6 +34,25 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.
Stretnutie 28.1.2026
Stav:
- Skript na vyhodnotenie hatespeech a klasifikáciu dát je pripravený.
- Overenie - sklep dataset a mc4.
- Slovak bert je fine tune.
- klasifikovanie do: blogy, eshopy, wikipedia, tematicka stranka, diskusie,kniha, clanok,správy
- Trénovanie na colab.
Úlohy:
- Pridajte kategeóriu iné.
- Dotrénujte klasifikátory. Vyhodnotte ich na testovascej množine. Dáta s príkladmi by mali byť rozdelené na térnovanie a testovacie.
- Výsledky experimentov dajte do tabuľky. Do práce napíšte trénovací postup aj hyperarametre.
- Aplikujte klasifikáciu na webový korpus. Štatistické výsledky dajte do tabuľky.
- V teoretickej časti vysvetlite Váš postup a porovnajte ho s inými prístupmi, napr. hplt alebo dolma dataset.
- Pripravte prezentáciu
Stretnutie 13.11.2025
- Pripravený skript pre rozponávanie nenávisti. Pomocou HF transformers model. Natrénovaný vlastný model na kaggle. Treba na tom ešte pracovať. Založený run_classification z HF transformers examples.

View File

@ -9,8 +9,25 @@ taxonomy:
rok začiatku štúdia: 2021
# Diplomová práca 2026
Názov:
Znalostné grafy pre zlepšenie vyhľadávania právnych informácií.
Zadanie:
1. Vypracujte prehľad súčasných prístupov k využitiu znalostných grafov na vyhľadávanie pomocou jazykových modelov.
2. Zostavte vzorový znalostný graf z právnej oblasti.
3. Navrhnite a implementujte systém, ktorý pomocou znalostných grafov umožní vyhľadávanie v rozsudkoch, zákonoch a vyhláškach, odpovedanie na otázky a sumarizáciu dokumentov.
4. Otestujte systém na navrhnutých úlohách, vyhodnoťte jeho výkonnosť a identifikujte slabé miesta.
Ciele:
- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac
, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov.
- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov pomocou znalostných grafov
Stretnutie 10.10.2025
@ -42,14 +59,6 @@ Letná Príprava:
- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting.
- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
# Diplomová práca 2026
Ciele:
- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac
, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov.
- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
# Diplomový projekt 1 2025
Stretnutie 14.5.2025

View File

@ -2,14 +2,24 @@
title: Oleh Poiasnik
published: true
taxonomy:
category: [bp2025]
category: [bp2025,dp2027]
tag: [rag,nlp]
author: Daniel Hladek
---
rok začiatku štúdia: 2022
# Diplomová práca 2027
Expertný agentový systém na podporu rozhodovania v lekárni
Cieľ:
- Vylepšiť agenta pre prácu so znalostným grafom - interakcie a kontraindikácie.
# Bakalárska práca 2025

View File

@ -19,6 +19,15 @@ Predbežný názov:
Orchestrácia veľkých jazykových modelov pomocou model context protokolu s využitím OpenWebUI
Zadanie:
- Vypracujte prehľad súčasných veľkých jazykových modelov s podporou slovenčiny, ktoré sa používajú na generovanie prirodzeného jazyka, generovanie programového kódu a vyhľadávanie informácií.
- Nasaďte OpenWebUI pomocou DockerCompose a vybrať niekoľko vhodných modelov, ktoré sprístupníte prostredníctvom webového rozhrania aj RESTAPI.
- Rozšírte nasadený systém o podporu RAG, vyhľadávania na webe, volania funkcií a integráciu ďalších nástrojov.
- Otestujte a vyhodnoťte celý rámec, identifikujte slabé miesta a navrhnite konkrétne opatrenia na ich odstránenie.
Ukončil predčasne
Úlohy:
- Vypracovať prehľad jazykových modelov s podporou slovenčiny pre úlohy generovania prirodzeného jazyka, generovania proprogramov a vyhľadávania.

View File

@ -20,10 +20,37 @@ Téma:
Grafová databáza pre podporu generovania slovenského jazyka
Zadanie:
1. Vypracujte prehľad metód podpory generovania prirodzeného jazyka pomocou znalostných grafov.
2. Zostavte znalostný graf pre slovenské právo a vložte ho do vybranej grafovej databázy.
3. Navrhnite a vytvorte inteligentného agenta, ktorý využije vytvorený znalostný graf.
4. Vyhodnoťte agenta, identifikujte jeho slabé miesta a navrhnite zlepšenia pre prácu so znalostným grafom.
Ciele:
Vytvorte databázu pre vyhľadávanie v rozsudkoch s využitím grafovej informácie.
Vytvorte databázu pre vyhľadávanie v právnych predpisoch s využitím grafovej informácie.
Stretnutie 4.2.
- Sú stiahnuté predpisy za rok 2024.
- Hotový skript na transformáciu HTML do grafovej databázy.
- Súbory sú na https://git.kpi.fei.tuke.sk/kpi-zp/2026/bp.maksym.zatirka/workspace/grafova-databaza-pre-podporu-generovania-slovenskeho-jazyka
Úlohy:
- Použite model, prístupný cez OpenAI completions API.
- Agent by mal vedieť vyhľadávať v zákonoch aj v súvisiacich predpisoch. Ku otázke zistite súvisiace právne predpisy z grafovej databázy. Porovnajte to s odpoveďou modelu.
- Vytvorte aj jednoduché rozhranie ku agentovi. Rozhranie sa da riešiť ako modul do openwebui.
- Napíšte niekoľko vzorových scenárov.
- Zatiaľ použijete svoju databázu neo4j, neskôr prirobím databazu ku ui.tukekemt.xyz
- Pokračujte v práci na texte BP - využitie znalostných grafov v LLM.
- Rozšírte databázu pravidiel.
Stretnutie 7.11.

View File

@ -24,11 +24,13 @@ Ciele:
Vytvorte agenta pre spracovanie slovenských právnych textov
Predbežné zadanie:
Zadanie:
1. Vypracujte prehľad jazykových modelov s podporou slovenčiny a s možnosťou volania nástrojov.
2. Vyberte a opíšte vhodné verejné API pre prístup k informáciám z právnej oblasti.
3. Navrhnite a vypracujte inteligentného agenta, ktorý bude vedieť používať toto API s cieľom pomôcť pri práci s právnou agendou.
4. Vytvorte a vyhodnoťte webové demo pre interakciu s agentom.
1. Vypracujte prehľad jazykových modelov s podporou slovenčiny a s podporou volania nástrojov. Opíšte spôsob ich práce a spôsob ich trénovania s dôrazom na volanie nástrojov.
2. Vyberte a opíšte vhodné verejné API pre prístup ku informáciám z právnej oblasti.
3. Navrhnite a vypravujte inteligentého agenta, ktorý bude vedieť používať toto API s cieľom pomôcť pri práci s právnou agendou.
4. Vytvorte webové demo pre interakciu s agentom.
Spolupráca:

View File

@ -21,11 +21,11 @@ Inteligentný agent pre podporu práce špeciálneho pedagóga
Predbežné zadanie:
1. Vypracujte agentových systémov na báze veľkého jazykového modelu
2. Získajte dáta z internetu a vytvorte inteligentného agenta pre pomoc špeciálnemu pedagógovi
3. Navrhnite a nasadte webové rozhranie pre inteligentného agenta.
4. Navrhnite viacero scenárov dialógu a slovne vyhodnotte priebeh dialógu s inteligentným agentom.
5. Identifikujte slabé miesta inteligentého agenta a navrhnite zlepšenia.
1. Vypracujte prehľad agentových systémov na báze veľkého jazykového modelu.
2. Získajte dáta z internetu a vytvorte inteligentného agenta na pomoc špeciálnemu pedagógovi.
3. Navrhnite a nasadte webové rozhranie pre inteligentného agenta.
4. Navrhnite viacero scenárov interakcie s inteligentným agentom a slovne vyhodnoťte ich priebeh.
https://github.com/RostikRd/bp2026
@ -37,6 +37,20 @@ https://github.com/RostikRd/bp2026
- Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenty
- Vytvorte inteligentného agenta, ktorý by na základe dokumentov navrhol najlepšie výchovné opatrenia.
Stretnutie 6.2.2026
Stav:
- využitie internetu pre vyhľadanie aj overenie.
- Dorobený fallback na internet.
- texty nie je pokrok
- možnosť pridať vlastné dokumenty.
Úlohy:
- dajte zdroje na GIT
- Pokračujte v práci na textoch
Stretnutie 12.12.2025
Stav:

View File

@ -25,10 +25,10 @@ Vytvorte agenta pre podporu činnosti zásielkovej spoločnosti.
Zadanie:
- Vypracujte prehľad architektúr a jazykových modelov pre inteligentné agenty.
- Vypracujte zoznam požiadaviek na agenta pre podporu činnosti zásielkovej spoločnosti..
- Na základe vypracovaného prehľadu a zoznamu požiadaviek navrhnite a vypracujte inteligentného agenta.
- Agenta otestujte a vyhodnotte formou dotazníka. Identifikujte slabé miesta a navrhnite zlepšenia.
1. Vypracujte prehľad architektúr a jazykových modelov pre inteligentných agentov.
2. Vypracujte zoznam požiadaviek na agenta pre podporu činnosti zásielkovej spoločnosti.
3. Na základe vypracovaného prehľadu a zoznamu požiadaviek navrhnite a vypracujte inteligentného agenta.
4. Agenta otestujte a vyhodnoťte formou dotazníka, identifikujte slabé miesta a navrhnite zlepšenia.
Spolupráca:

View File

@ -17,6 +17,13 @@ Téma:
Automatická sumarizácia slovenského textu
Zadanie:
1. Zostavte prehľad modelov a metód vhodných na automatickú sumarizáciu textov v slovenskom jazyku.
2. Vyberte viacero vhodných modelov a vykonajte sumarizáciu na vybranej množine.
3. Vyhodnoťte výsledky vhodnou metódou.
4. Identifikujte slabé miesta existujúceho spôsobu sumarizácie a navrhnite možné zlepšenia.
https://git.kemt.fei.tuke.sk/sb610oy/bakalarska-praca
Ciele:

View File

@ -15,13 +15,30 @@ rok začiatku štúdia: 2023
Téma:
Extrakcia informácií z webových stránok
Získavanie textu z webových stránok
Zadanie:
1. Vypracujte prehľad webových korpusov a metód ich tvorby.
2. Vytvorte a nasadte webový crawler na sledovanie a sťahovanie slovenského internetu.
3. Pomocou crawlera získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
4. Analyzujte získané dáta, priebeh ich sťahovania a navrhnite zlepšenia procesu získavania textových dát.
Stretnutie 4.2.2025
Stav:
- Crawler funguje, má web rozhranie
Úlohy:
- Pridaje zoznam prioritných webov a blacklist, pridajte preľad štatistík o doménach ((počet navštívených stréno, veľkosč získan=hop textu, počet získaných odkazov interné a externé)) z už získaných dát.
- Zamiešajte zoznam domén. Pridajte možnosť zamerať crawlera na určitý zoznam stránok.
- Snažte sa získať čo najviac textu. Sledujte činnosť crawlera, zobrazte grafy nazbieraného textu, odkazov, navštívených stránok, navštívených domén.
- Pokračujte v práci na texte BP, citujte vedecké články o "text mining",
Predbežné zadanie:
1. Vypracujte prehľad webových korpusov a metód ich tvorby.
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
Stretnutie 18.12.2025