forked from KEMT/zpwiki
Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki
This commit is contained in:
commit
294ed8773d
@ -12,6 +12,15 @@ rok začiatku štúdia: 2021
|
||||
|
||||
# Diplomová práca 2026
|
||||
|
||||
Zvýšenie bezpečnosti veľkých jazykových modelov
|
||||
|
||||
Zadanie:
|
||||
|
||||
1. Vypracujte prehľad súčasného stavu výskumu v oblasti zvyšovania bezpečnosti veľkých jazykových modelov, vrátane identifikácie známych bezpečnostných problémov a spôsobov ich vyhodnotenia.
|
||||
2. Vyberte vhodnú trénovaciu sadu a zarovnajte vybraný jazykový model s cieľom zvýšiť jeho bezpečnosť.
|
||||
3. Vyberte vhodnú testovaciu sadu a vyhodnoťte bezpečnosť viacerých modelov, vrátane zarovnaného modelu.
|
||||
4. Na základe experimentov predložte konkrétne odporúčania pre ďalšie zlepšenia bezpečnosti modelov v slovenskom jazyku.
|
||||
|
||||
Vyhodnotenie jazykových modelov
|
||||
|
||||
https://git.kemt.fei.tuke.sk/ah866cw/DP
|
||||
@ -24,6 +33,21 @@ Možné ciele:
|
||||
- Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
|
||||
- Navrhnúť zlepšenia na zvýšenie bezpečnosti.
|
||||
|
||||
Stretnutie 3.2.
|
||||
|
||||
Stav:
|
||||
- Dotrénovaný Slovak Mistral - DPO aj SFT
|
||||
- práca na texte
|
||||
- trénovacie dáta sú založené na preklade pomocou NLLB - LIbrai/do-not-answer
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Vyjadrite mieru zlepšenia v jednotlivých krokoch dotrénovania modelu Slovak Mistral vzhľadom na testovaciu množinu.
|
||||
- Urobte podobný proces aj pre iný model a porovnajte výsledky.
|
||||
- Do práce dajte tabuľku, hyperparametre trénovania, modelov aj trénovací postup v textovej podobe.
|
||||
- Pokračujte v práci na texte.
|
||||
|
||||
|
||||
Stretnutie 19.12.2025
|
||||
|
||||
Stav:
|
||||
|
||||
@ -13,6 +13,17 @@ rok začiatku štúdia: 2021
|
||||
|
||||
https://git.kemt.fei.tuke.sk/ms058bd/Diplomovka
|
||||
|
||||
Názov práce:
|
||||
|
||||
Agentové systémy pomocou veľkého jazykového modelu
|
||||
|
||||
Zadanie:
|
||||
|
||||
1. Vypracujte prehľad systémov generovania prirodzeného jazyka, ktoré podporujú vyhľadávanie a sú vhodné na spracovanie právnych informácií.
|
||||
2. Na základe tohto prehľadu navrhnite a implementujte agentový systém, ktorý umožní vyhľadávanie v právnych dokumentoch, odpovedanie na otázky a sumarizáciu textov.
|
||||
3. Vytvorte sadu vzorových úloh na testovanie systému a optimalizujte generovanie odpovedí pre úlohy, ktoré vyžadujú viacero krokov.
|
||||
4. Otestujte systém na navrhnutých úlohách, vyhodnoťte jeho výkonnosť a identifikujte slabé miesta.
|
||||
|
||||
Ciele:
|
||||
|
||||
- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškach.
|
||||
@ -20,6 +31,22 @@ Ciele:
|
||||
- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
|
||||
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
|
||||
|
||||
Stretnutie 5.2.2026
|
||||
|
||||
- Zväčšený index
|
||||
- Problém s kvalitou vyhľadávania. Problém môžu byť tabuľky - agent ich nevidí. Parsovanie bolo z html dát cez beautifulsoup.
|
||||
- Práca na texte.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Vyhodnotte Váš systém pomocou viacerých metrík DeepEval - pomocou jazykového modelu.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Zlepšiť krok rozhodnovania - použiť internet, FAISS alebo API?
|
||||
- Preparsovať dáta pomocou Docling.
|
||||
|
||||
|
||||
Stretnutie 5.12.2025
|
||||
|
||||
- Zlepšenie parsovania a promptingu.
|
||||
|
||||
@ -14,6 +14,19 @@ rok začiatku štúdia: 2021
|
||||
|
||||
Klasifikácia webových dát pre lepšie jazykové modelovanie
|
||||
|
||||
Repo https://git.kemt.fei.tuke.sk/mn180gd/diplomovka
|
||||
|
||||
Zadanie:
|
||||
|
||||
1. Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu.
|
||||
2. Navrhnite a implementujte systém, ktorý automaticky roztriedi webové texty podľa uvedených typov a domén a zároveň vyhodnotí ich úroveň nenávisti.
|
||||
3. Zostavte kvalitný všeobecný a tematický korpus vhodný na trénovanie jazykového modelu.
|
||||
4. Štatisticky analyzujte výskyt jednotlivých kategórií textov a výskyt potenciálneho nenávistného obsahu.
|
||||
5. Slovne vyhodnoťte navrhnutý systém a navrhnite ďalšie zlepšenia pre zvýšenie kvality trénovacích dát.
|
||||
|
||||
|
||||
|
||||
Po trénovaní modelu ho otestujte na relevantných úlohách, vyhodnoťte vplyv klasifikácie a kvality dát na výkonnosť modelu, identifikujte slabé miesta (napr. nedostatočná reprezentatívnosť domén alebo nepresná detekcia nenávisti) a navrhnite konkrétne opatrenia na ich odstránenie.
|
||||
|
||||
Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
|
||||
|
||||
@ -21,6 +34,25 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
|
||||
2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
|
||||
3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.
|
||||
|
||||
Stretnutie 28.1.2026
|
||||
|
||||
Stav:
|
||||
|
||||
- Skript na vyhodnotenie hatespeech a klasifikáciu dát je pripravený.
|
||||
- Overenie - sklep dataset a mc4.
|
||||
- Slovak bert je fine tune.
|
||||
- klasifikovanie do: blogy, eshopy, wikipedia, tematicka stranka, diskusie,kniha, clanok,správy
|
||||
- Trénovanie na colab.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pridajte kategeóriu iné.
|
||||
- Dotrénujte klasifikátory. Vyhodnotte ich na testovascej množine. Dáta s príkladmi by mali byť rozdelené na térnovanie a testovacie.
|
||||
- Výsledky experimentov dajte do tabuľky. Do práce napíšte trénovací postup aj hyperarametre.
|
||||
- Aplikujte klasifikáciu na webový korpus. Štatistické výsledky dajte do tabuľky.
|
||||
- V teoretickej časti vysvetlite Váš postup a porovnajte ho s inými prístupmi, napr. hplt alebo dolma dataset.
|
||||
- Pripravte prezentáciu
|
||||
|
||||
Stretnutie 13.11.2025
|
||||
|
||||
- Pripravený skript pre rozponávanie nenávisti. Pomocou HF transformers model. Natrénovaný vlastný model na kaggle. Treba na tom ešte pracovať. Založený run_classification z HF transformers examples.
|
||||
|
||||
@ -9,8 +9,25 @@ taxonomy:
|
||||
|
||||
rok začiatku štúdia: 2021
|
||||
|
||||
|
||||
# Diplomová práca 2026
|
||||
|
||||
Názov:
|
||||
|
||||
Znalostné grafy pre zlepšenie vyhľadávania právnych informácií.
|
||||
|
||||
Zadanie:
|
||||
|
||||
1. Vypracujte prehľad súčasných prístupov k využitiu znalostných grafov na vyhľadávanie pomocou jazykových modelov.
|
||||
2. Zostavte vzorový znalostný graf z právnej oblasti.
|
||||
3. Navrhnite a implementujte systém, ktorý pomocou znalostných grafov umožní vyhľadávanie v rozsudkoch, zákonoch a vyhláškach, odpovedanie na otázky a sumarizáciu dokumentov.
|
||||
4. Otestujte systém na navrhnutých úlohách, vyhodnoťte jeho výkonnosť a identifikujte slabé miesta.
|
||||
|
||||
Ciele:
|
||||
|
||||
- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac
|
||||
, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov.
|
||||
- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
|
||||
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov pomocou znalostných grafov
|
||||
|
||||
Stretnutie 10.10.2025
|
||||
@ -42,14 +59,6 @@ Letná Príprava:
|
||||
- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting.
|
||||
- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
|
||||
|
||||
# Diplomová práca 2026
|
||||
|
||||
Ciele:
|
||||
|
||||
- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac
|
||||
, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov.
|
||||
- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
|
||||
|
||||
# Diplomový projekt 1 2025
|
||||
|
||||
Stretnutie 14.5.2025
|
||||
|
||||
@ -2,14 +2,24 @@
|
||||
title: Oleh Poiasnik
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [bp2025]
|
||||
category: [bp2025,dp2027]
|
||||
tag: [rag,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
||||
|
||||
|
||||
rok začiatku štúdia: 2022
|
||||
|
||||
# Diplomová práca 2027
|
||||
|
||||
Expertný agentový systém na podporu rozhodovania v lekárni
|
||||
|
||||
Cieľ:
|
||||
|
||||
- Vylepšiť agenta pre prácu so znalostným grafom - interakcie a kontraindikácie.
|
||||
|
||||
|
||||
# Bakalárska práca 2025
|
||||
|
||||
|
||||
|
||||
@ -19,6 +19,15 @@ Predbežný názov:
|
||||
|
||||
Orchestrácia veľkých jazykových modelov pomocou model context protokolu s využitím OpenWebUI
|
||||
|
||||
Zadanie:
|
||||
|
||||
- Vypracujte prehľad súčasných veľkých jazykových modelov s podporou slovenčiny, ktoré sa používajú na generovanie prirodzeného jazyka, generovanie programového kódu a vyhľadávanie informácií.
|
||||
- Nasaďte OpenWebUI pomocou Docker Compose a vybrať niekoľko vhodných modelov, ktoré sprístupníte prostredníctvom webového rozhrania aj REST API.
|
||||
- Rozšírte nasadený systém o podporu RAG, vyhľadávania na webe, volania funkcií a integráciu ďalších nástrojov.
|
||||
- Otestujte a vyhodnoťte celý rámec, identifikujte slabé miesta a navrhnite konkrétne opatrenia na ich odstránenie.
|
||||
|
||||
Ukončil predčasne
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Vypracovať prehľad jazykových modelov s podporou slovenčiny pre úlohy generovania prirodzeného jazyka, generovania proprogramov a vyhľadávania.
|
||||
|
||||
@ -20,10 +20,37 @@ Téma:
|
||||
|
||||
Grafová databáza pre podporu generovania slovenského jazyka
|
||||
|
||||
Zadanie:
|
||||
|
||||
1. Vypracujte prehľad metód podpory generovania prirodzeného jazyka pomocou znalostných grafov.
|
||||
2. Zostavte znalostný graf pre slovenské právo a vložte ho do vybranej grafovej databázy.
|
||||
3. Navrhnite a vytvorte inteligentného agenta, ktorý využije vytvorený znalostný graf.
|
||||
4. Vyhodnoťte agenta, identifikujte jeho slabé miesta a navrhnite zlepšenia pre prácu so znalostným grafom.
|
||||
|
||||
Ciele:
|
||||
|
||||
Vytvorte databázu pre vyhľadávanie v rozsudkoch s využitím grafovej informácie.
|
||||
|
||||
|
||||
Vytvorte databázu pre vyhľadávanie v právnych predpisoch s využitím grafovej informácie.
|
||||
|
||||
|
||||
Stretnutie 4.2.
|
||||
|
||||
- Sú stiahnuté predpisy za rok 2024.
|
||||
- Hotový skript na transformáciu HTML do grafovej databázy.
|
||||
- Súbory sú na https://git.kpi.fei.tuke.sk/kpi-zp/2026/bp.maksym.zatirka/workspace/grafova-databaza-pre-podporu-generovania-slovenskeho-jazyka
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Použite model, prístupný cez OpenAI completions API.
|
||||
- Agent by mal vedieť vyhľadávať v zákonoch aj v súvisiacich predpisoch. Ku otázke zistite súvisiace právne predpisy z grafovej databázy. Porovnajte to s odpoveďou modelu.
|
||||
- Vytvorte aj jednoduché rozhranie ku agentovi. Rozhranie sa da riešiť ako modul do openwebui.
|
||||
- Napíšte niekoľko vzorových scenárov.
|
||||
- Zatiaľ použijete svoju databázu neo4j, neskôr prirobím databazu ku ui.tukekemt.xyz
|
||||
- Pokračujte v práci na texte BP - využitie znalostných grafov v LLM.
|
||||
- Rozšírte databázu pravidiel.
|
||||
|
||||
|
||||
|
||||
Stretnutie 7.11.
|
||||
|
||||
|
||||
@ -24,11 +24,13 @@ Ciele:
|
||||
Vytvorte agenta pre spracovanie slovenských právnych textov
|
||||
|
||||
Predbežné zadanie:
|
||||
Zadanie:
|
||||
|
||||
1. Vypracujte prehľad jazykových modelov s podporou slovenčiny a s možnosťou volania nástrojov.
|
||||
2. Vyberte a opíšte vhodné verejné API pre prístup k informáciám z právnej oblasti.
|
||||
3. Navrhnite a vypracujte inteligentného agenta, ktorý bude vedieť používať toto API s cieľom pomôcť pri práci s právnou agendou.
|
||||
4. Vytvorte a vyhodnoťte webové demo pre interakciu s agentom.
|
||||
|
||||
1. Vypracujte prehľad jazykových modelov s podporou slovenčiny a s podporou volania nástrojov. Opíšte spôsob ich práce a spôsob ich trénovania s dôrazom na volanie nástrojov.
|
||||
2. Vyberte a opíšte vhodné verejné API pre prístup ku informáciám z právnej oblasti.
|
||||
3. Navrhnite a vypravujte inteligentého agenta, ktorý bude vedieť používať toto API s cieľom pomôcť pri práci s právnou agendou.
|
||||
4. Vytvorte webové demo pre interakciu s agentom.
|
||||
|
||||
Spolupráca:
|
||||
|
||||
|
||||
@ -21,11 +21,11 @@ Inteligentný agent pre podporu práce špeciálneho pedagóga
|
||||
|
||||
Predbežné zadanie:
|
||||
|
||||
1. Vypracujte agentových systémov na báze veľkého jazykového modelu
|
||||
2. Získajte dáta z internetu a vytvorte inteligentného agenta pre pomoc špeciálnemu pedagógovi
|
||||
3. Navrhnite a nasadte webové rozhranie pre inteligentného agenta.
|
||||
4. Navrhnite viacero scenárov dialógu a slovne vyhodnotte priebeh dialógu s inteligentným agentom.
|
||||
5. Identifikujte slabé miesta inteligentého agenta a navrhnite zlepšenia.
|
||||
1. Vypracujte prehľad agentových systémov na báze veľkého jazykového modelu.
|
||||
2. Získajte dáta z internetu a vytvorte inteligentného agenta na pomoc špeciálnemu pedagógovi.
|
||||
3. Navrhnite a nasadte webové rozhranie pre inteligentného agenta.
|
||||
4. Navrhnite viacero scenárov interakcie s inteligentným agentom a slovne vyhodnoťte ich priebeh.
|
||||
|
||||
|
||||
https://github.com/RostikRd/bp2026
|
||||
|
||||
@ -37,6 +37,20 @@ https://github.com/RostikRd/bp2026
|
||||
- Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenty
|
||||
- Vytvorte inteligentného agenta, ktorý by na základe dokumentov navrhol najlepšie výchovné opatrenia.
|
||||
|
||||
Stretnutie 6.2.2026
|
||||
|
||||
Stav:
|
||||
|
||||
- využitie internetu pre vyhľadanie aj overenie.
|
||||
- Dorobený fallback na internet.
|
||||
- texty nie je pokrok
|
||||
- možnosť pridať vlastné dokumenty.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- dajte zdroje na GIT
|
||||
- Pokračujte v práci na textoch
|
||||
|
||||
Stretnutie 12.12.2025
|
||||
|
||||
Stav:
|
||||
|
||||
@ -25,10 +25,10 @@ Vytvorte agenta pre podporu činnosti zásielkovej spoločnosti.
|
||||
|
||||
Zadanie:
|
||||
|
||||
- Vypracujte prehľad architektúr a jazykových modelov pre inteligentné agenty.
|
||||
- Vypracujte zoznam požiadaviek na agenta pre podporu činnosti zásielkovej spoločnosti..
|
||||
- Na základe vypracovaného prehľadu a zoznamu požiadaviek navrhnite a vypracujte inteligentného agenta.
|
||||
- Agenta otestujte a vyhodnotte formou dotazníka. Identifikujte slabé miesta a navrhnite zlepšenia.
|
||||
1. Vypracujte prehľad architektúr a jazykových modelov pre inteligentných agentov.
|
||||
2. Vypracujte zoznam požiadaviek na agenta pre podporu činnosti zásielkovej spoločnosti.
|
||||
3. Na základe vypracovaného prehľadu a zoznamu požiadaviek navrhnite a vypracujte inteligentného agenta.
|
||||
4. Agenta otestujte a vyhodnoťte formou dotazníka, identifikujte slabé miesta a navrhnite zlepšenia.
|
||||
|
||||
Spolupráca:
|
||||
|
||||
|
||||
@ -17,6 +17,13 @@ Téma:
|
||||
|
||||
Automatická sumarizácia slovenského textu
|
||||
|
||||
Zadanie:
|
||||
|
||||
1. Zostavte prehľad modelov a metód vhodných na automatickú sumarizáciu textov v slovenskom jazyku.
|
||||
2. Vyberte viacero vhodných modelov a vykonajte sumarizáciu na vybranej množine.
|
||||
3. Vyhodnoťte výsledky vhodnou metódou.
|
||||
4. Identifikujte slabé miesta existujúceho spôsobu sumarizácie a navrhnite možné zlepšenia.
|
||||
|
||||
https://git.kemt.fei.tuke.sk/sb610oy/bakalarska-praca
|
||||
|
||||
Ciele:
|
||||
|
||||
@ -15,13 +15,30 @@ rok začiatku štúdia: 2023
|
||||
|
||||
Téma:
|
||||
|
||||
Extrakcia informácií z webových stránok
|
||||
Získavanie textu z webových stránok
|
||||
|
||||
Zadanie:
|
||||
|
||||
1. Vypracujte prehľad webových korpusov a metód ich tvorby.
|
||||
2. Vytvorte a nasadte webový crawler na sledovanie a sťahovanie slovenského internetu.
|
||||
3. Pomocou crawlera získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
||||
4. Analyzujte získané dáta, priebeh ich sťahovania a navrhnite zlepšenia procesu získavania textových dát.
|
||||
|
||||
Stretnutie 4.2.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Crawler funguje, má web rozhranie
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pridaje zoznam prioritných webov a blacklist, pridajte preľad štatistík o doménach ((počet navštívených stréno, veľkosč získan=hop textu, počet získaných odkazov interné a externé)) z už získaných dát.
|
||||
- Zamiešajte zoznam domén. Pridajte možnosť zamerať crawlera na určitý zoznam stránok.
|
||||
- Snažte sa získať čo najviac textu. Sledujte činnosť crawlera, zobrazte grafy nazbieraného textu, odkazov, navštívených stránok, navštívených domén.
|
||||
- Pokračujte v práci na texte BP, citujte vedecké články o "text mining",
|
||||
|
||||
|
||||
Predbežné zadanie:
|
||||
|
||||
1. Vypracujte prehľad webových korpusov a metód ich tvorby.
|
||||
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
||||
3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
|
||||
|
||||
Stretnutie 18.12.2025
|
||||
|
||||
|
||||
Loading…
Reference in New Issue
Block a user