diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index 35daef4e0..53e8e6e6d 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -12,6 +12,15 @@ rok začiatku štúdia: 2021 # Diplomová práca 2026 +Zvýšenie bezpečnosti veľkých jazykových modelov + +Zadanie: + +1. Vypracujte prehľad súčasného stavu výskumu v oblasti zvyšovania bezpečnosti veľkých jazykových modelov, vrátane identifikácie známych bezpečnostných problémov a spôsobov ich vyhodnotenia. +2. Vyberte vhodnú trénovaciu sadu a zarovnajte vybraný jazykový model s cieľom zvýšiť jeho bezpečnosť. +3. Vyberte vhodnú testovaciu sadu a vyhodnoťte bezpečnosť viacerých modelov, vrátane zarovnaného modelu. +4. Na základe experimentov predložte konkrétne odporúčania pre ďalšie zlepšenia bezpečnosti modelov v slovenskom jazyku. + Vyhodnotenie jazykových modelov https://git.kemt.fei.tuke.sk/ah866cw/DP @@ -24,6 +33,21 @@ Možné ciele: - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch. - Navrhnúť zlepšenia na zvýšenie bezpečnosti. +Stretnutie 3.2. + +Stav: +- Dotrénovaný Slovak Mistral - DPO aj SFT +- práca na texte +- trénovacie dáta sú založené na preklade pomocou NLLB - LIbrai/do-not-answer + +Úlohy: + +- Vyjadrite mieru zlepšenia v jednotlivých krokoch dotrénovania modelu Slovak Mistral vzhľadom na testovaciu množinu. +- Urobte podobný proces aj pre iný model a porovnajte výsledky. +- Do práce dajte tabuľku, hyperparametre trénovania, modelov aj trénovací postup v textovej podobe. +- Pokračujte v práci na texte. + + Stretnutie 19.12.2025 Stav: diff --git a/pages/students/2021/martin_sarissky/README.md b/pages/students/2021/martin_sarissky/README.md index 27c8c84cd..5ba8ea51e 100644 --- a/pages/students/2021/martin_sarissky/README.md +++ b/pages/students/2021/martin_sarissky/README.md @@ -13,6 +13,17 @@ rok začiatku štúdia: 2021 https://git.kemt.fei.tuke.sk/ms058bd/Diplomovka +Názov práce: + +Agentové systémy pomocou veľkého jazykového modelu + +Zadanie: + +1. Vypracujte prehľad systémov generovania prirodzeného jazyka, ktoré podporujú vyhľadávanie a sú vhodné na spracovanie právnych informácií. +2. Na základe tohto prehľadu navrhnite a implementujte agentový systém, ktorý umožní vyhľadávanie v právnych dokumentoch, odpovedanie na otázky a sumarizáciu textov. +3. Vytvorte sadu vzorových úloh na testovanie systému a optimalizujte generovanie odpovedí pre úlohy, ktoré vyžadujú viacero krokov. +4. Otestujte systém na navrhnutých úlohách, vyhodnoťte jeho výkonnosť a identifikujte slabé miesta. + Ciele: - Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškach. @@ -20,6 +31,22 @@ Ciele: - Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému. - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. +Stretnutie 5.2.2026 + +- Zväčšený index +- Problém s kvalitou vyhľadávania. Problém môžu byť tabuľky - agent ich nevidí. Parsovanie bolo z html dát cez beautifulsoup. +- Práca na texte. + +Úlohy: + +- Vyhodnotte Váš systém pomocou viacerých metrík DeepEval - pomocou jazykového modelu. + +Zásobník úloh: + +- Zlepšiť krok rozhodnovania - použiť internet, FAISS alebo API? +- Preparsovať dáta pomocou Docling. + + Stretnutie 5.12.2025 - Zlepšenie parsovania a promptingu. diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index a20df4212..08ee6f4dd 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -14,6 +14,19 @@ rok začiatku štúdia: 2021 Klasifikácia webových dát pre lepšie jazykové modelovanie +Repo https://git.kemt.fei.tuke.sk/mn180gd/diplomovka + +Zadanie: + +1. Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu. +2. Navrhnite a implementujte systém, ktorý automaticky roztriedi webové texty podľa uvedených typov a domén a zároveň vyhodnotí ich úroveň nenávisti. +3. Zostavte kvalitný všeobecný a tematický korpus vhodný na trénovanie jazykového modelu. +4. Štatisticky analyzujte výskyt jednotlivých kategórií textov a výskyt potenciálneho nenávistného obsahu. +5. Slovne vyhodnoťte navrhnutý systém a navrhnite ďalšie zlepšenia pre zvýšenie kvality trénovacích dát. + + + + Po trénovaní modelu ho otestujte na relevantných úlohách, vyhodnoťte vplyv klasifikácie a kvality dát na výkonnosť modelu, identifikujte slabé miesta (napr. nedostatočná reprezentatívnosť domén alebo nepresná detekcia nenávisti) a navrhnite konkrétne opatrenia na ich odstránenie. Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu. @@ -21,6 +34,25 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu. 2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana. 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model. +Stretnutie 28.1.2026 + +Stav: + +- Skript na vyhodnotenie hatespeech a klasifikáciu dát je pripravený. +- Overenie - sklep dataset a mc4. +- Slovak bert je fine tune. +- klasifikovanie do: blogy, eshopy, wikipedia, tematicka stranka, diskusie,kniha, clanok,správy +- Trénovanie na colab. + +Úlohy: + +- Pridajte kategeóriu iné. +- Dotrénujte klasifikátory. Vyhodnotte ich na testovascej množine. Dáta s príkladmi by mali byť rozdelené na térnovanie a testovacie. +- Výsledky experimentov dajte do tabuľky. Do práce napíšte trénovací postup aj hyperarametre. +- Aplikujte klasifikáciu na webový korpus. Štatistické výsledky dajte do tabuľky. +- V teoretickej časti vysvetlite Váš postup a porovnajte ho s inými prístupmi, napr. hplt alebo dolma dataset. +- Pripravte prezentáciu + Stretnutie 13.11.2025 - Pripravený skript pre rozponávanie nenávisti. Pomocou HF transformers model. Natrénovaný vlastný model na kaggle. Treba na tom ešte pracovať. Založený run_classification z HF transformers examples. diff --git a/pages/students/2021/matej_scislak/README.md b/pages/students/2021/matej_scislak/README.md index 4b613b36a..6c94fdadd 100644 --- a/pages/students/2021/matej_scislak/README.md +++ b/pages/students/2021/matej_scislak/README.md @@ -9,8 +9,25 @@ taxonomy: rok začiatku štúdia: 2021 + +# Diplomová práca 2026 + +Názov: + +Znalostné grafy pre zlepšenie vyhľadávania právnych informácií. + +Zadanie: + +1. Vypracujte prehľad súčasných prístupov k využitiu znalostných grafov na vyhľadávanie pomocou jazykových modelov. +2. Zostavte vzorový znalostný graf z právnej oblasti. +3. Navrhnite a implementujte systém, ktorý pomocou znalostných grafov umožní vyhľadávanie v rozsudkoch, zákonoch a vyhláškach, odpovedanie na otázky a sumarizáciu dokumentov. +4. Otestujte systém na navrhnutých úlohách, vyhodnoťte jeho výkonnosť a identifikujte slabé miesta. + Ciele: +- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac +, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov. +- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému. - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov pomocou znalostných grafov Stretnutie 10.10.2025 @@ -42,14 +59,6 @@ Letná Príprava: - Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting. - Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. -# Diplomová práca 2026 - -Ciele: - -- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac -, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov. -- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému. - # Diplomový projekt 1 2025 Stretnutie 14.5.2025 diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index eb9b3805d..7df43c4e3 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -2,14 +2,24 @@ title: Oleh Poiasnik published: true taxonomy: - category: [bp2025] + category: [bp2025,dp2027] tag: [rag,nlp] author: Daniel Hladek --- + rok začiatku štúdia: 2022 +# Diplomová práca 2027 + +Expertný agentový systém na podporu rozhodovania v lekárni + +Cieľ: + +- Vylepšiť agenta pre prácu so znalostným grafom - interakcie a kontraindikácie. + + # Bakalárska práca 2025 diff --git a/pages/students/2022/samuel_vasil/README.md b/pages/students/2022/samuel_vasil/README.md index aed90669a..6f96ab885 100644 --- a/pages/students/2022/samuel_vasil/README.md +++ b/pages/students/2022/samuel_vasil/README.md @@ -19,6 +19,15 @@ Predbežný názov: Orchestrácia veľkých jazykových modelov pomocou model context protokolu s využitím OpenWebUI +Zadanie: + +- Vypracujte prehľad súčasných veľkých jazykových modelov s podporou slovenčiny, ktoré sa používajú na generovanie prirodzeného jazyka, generovanie programového kódu a vyhľadávanie informácií. +- Nasaďte OpenWebUI pomocou Docker Compose a vybrať niekoľko vhodných modelov, ktoré sprístupníte prostredníctvom webového rozhrania aj REST API. +- Rozšírte nasadený systém o podporu RAG, vyhľadávania na webe, volania funkcií a integráciu ďalších nástrojov. +- Otestujte a vyhodnoťte celý rámec, identifikujte slabé miesta a navrhnite konkrétne opatrenia na ich odstránenie. + +Ukončil predčasne + Úlohy: - Vypracovať prehľad jazykových modelov s podporou slovenčiny pre úlohy generovania prirodzeného jazyka, generovania proprogramov a vyhľadávania. diff --git a/pages/students/2023/maksym_zatirka/README.md b/pages/students/2023/maksym_zatirka/README.md index e6da0fc1d..04b7791d4 100644 --- a/pages/students/2023/maksym_zatirka/README.md +++ b/pages/students/2023/maksym_zatirka/README.md @@ -20,10 +20,37 @@ Téma: Grafová databáza pre podporu generovania slovenského jazyka +Zadanie: + +1. Vypracujte prehľad metód podpory generovania prirodzeného jazyka pomocou znalostných grafov. +2. Zostavte znalostný graf pre slovenské právo a vložte ho do vybranej grafovej databázy. +3. Navrhnite a vytvorte inteligentného agenta, ktorý využije vytvorený znalostný graf. +4. Vyhodnoťte agenta, identifikujte jeho slabé miesta a navrhnite zlepšenia pre prácu so znalostným grafom. Ciele: -Vytvorte databázu pre vyhľadávanie v rozsudkoch s využitím grafovej informácie. + + +Vytvorte databázu pre vyhľadávanie v právnych predpisoch s využitím grafovej informácie. + + +Stretnutie 4.2. + +- Sú stiahnuté predpisy za rok 2024. +- Hotový skript na transformáciu HTML do grafovej databázy. +- Súbory sú na https://git.kpi.fei.tuke.sk/kpi-zp/2026/bp.maksym.zatirka/workspace/grafova-databaza-pre-podporu-generovania-slovenskeho-jazyka + +Úlohy: + +- Použite model, prístupný cez OpenAI completions API. +- Agent by mal vedieť vyhľadávať v zákonoch aj v súvisiacich predpisoch. Ku otázke zistite súvisiace právne predpisy z grafovej databázy. Porovnajte to s odpoveďou modelu. +- Vytvorte aj jednoduché rozhranie ku agentovi. Rozhranie sa da riešiť ako modul do openwebui. +- Napíšte niekoľko vzorových scenárov. +- Zatiaľ použijete svoju databázu neo4j, neskôr prirobím databazu ku ui.tukekemt.xyz +- Pokračujte v práci na texte BP - využitie znalostných grafov v LLM. +- Rozšírte databázu pravidiel. + + Stretnutie 7.11. diff --git a/pages/students/2023/oleksandr_dorybohov/README.md b/pages/students/2023/oleksandr_dorybohov/README.md index c104ad9e5..5edb40a40 100644 --- a/pages/students/2023/oleksandr_dorybohov/README.md +++ b/pages/students/2023/oleksandr_dorybohov/README.md @@ -24,11 +24,13 @@ Ciele: Vytvorte agenta pre spracovanie slovenských právnych textov Predbežné zadanie: +Zadanie: + +1. Vypracujte prehľad jazykových modelov s podporou slovenčiny a s možnosťou volania nástrojov. +2. Vyberte a opíšte vhodné verejné API pre prístup k informáciám z právnej oblasti. +3. Navrhnite a vypracujte inteligentného agenta, ktorý bude vedieť používať toto API s cieľom pomôcť pri práci s právnou agendou. +4. Vytvorte a vyhodnoťte webové demo pre interakciu s agentom. -1. Vypracujte prehľad jazykových modelov s podporou slovenčiny a s podporou volania nástrojov. Opíšte spôsob ich práce a spôsob ich trénovania s dôrazom na volanie nástrojov. -2. Vyberte a opíšte vhodné verejné API pre prístup ku informáciám z právnej oblasti. -3. Navrhnite a vypravujte inteligentého agenta, ktorý bude vedieť používať toto API s cieľom pomôcť pri práci s právnou agendou. -4. Vytvorte webové demo pre interakciu s agentom. Spolupráca: diff --git a/pages/students/2023/rostyslav_rodzhuk/README.md b/pages/students/2023/rostyslav_rodzhuk/README.md index bb37f9d48..982cf7007 100644 --- a/pages/students/2023/rostyslav_rodzhuk/README.md +++ b/pages/students/2023/rostyslav_rodzhuk/README.md @@ -21,11 +21,11 @@ Inteligentný agent pre podporu práce špeciálneho pedagóga Predbežné zadanie: -1. Vypracujte agentových systémov na báze veľkého jazykového modelu -2. Získajte dáta z internetu a vytvorte inteligentného agenta pre pomoc špeciálnemu pedagógovi -3. Navrhnite a nasadte webové rozhranie pre inteligentného agenta. -4. Navrhnite viacero scenárov dialógu a slovne vyhodnotte priebeh dialógu s inteligentným agentom. -5. Identifikujte slabé miesta inteligentého agenta a navrhnite zlepšenia. +1. Vypracujte prehľad agentových systémov na báze veľkého jazykového modelu. +2. Získajte dáta z internetu a vytvorte inteligentného agenta na pomoc špeciálnemu pedagógovi. +3. Navrhnite a nasadte webové rozhranie pre inteligentného agenta. +4. Navrhnite viacero scenárov interakcie s inteligentným agentom a slovne vyhodnoťte ich priebeh. + https://github.com/RostikRd/bp2026 @@ -37,6 +37,20 @@ https://github.com/RostikRd/bp2026 - Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenty - Vytvorte inteligentného agenta, ktorý by na základe dokumentov navrhol najlepšie výchovné opatrenia. +Stretnutie 6.2.2026 + +Stav: + +- využitie internetu pre vyhľadanie aj overenie. +- Dorobený fallback na internet. +- texty nie je pokrok +- možnosť pridať vlastné dokumenty. + +Úlohy: + +- dajte zdroje na GIT +- Pokračujte v práci na textoch + Stretnutie 12.12.2025 Stav: diff --git a/pages/students/2023/samuel_dzurina/README.md b/pages/students/2023/samuel_dzurina/README.md index 9febb8395..615956f9a 100644 --- a/pages/students/2023/samuel_dzurina/README.md +++ b/pages/students/2023/samuel_dzurina/README.md @@ -25,10 +25,10 @@ Vytvorte agenta pre podporu činnosti zásielkovej spoločnosti. Zadanie: -- Vypracujte prehľad architektúr a jazykových modelov pre inteligentné agenty. -- Vypracujte zoznam požiadaviek na agenta pre podporu činnosti zásielkovej spoločnosti.. -- Na základe vypracovaného prehľadu a zoznamu požiadaviek navrhnite a vypracujte inteligentného agenta. -- Agenta otestujte a vyhodnotte formou dotazníka. Identifikujte slabé miesta a navrhnite zlepšenia. +1. Vypracujte prehľad architektúr a jazykových modelov pre inteligentných agentov. +2. Vypracujte zoznam požiadaviek na agenta pre podporu činnosti zásielkovej spoločnosti. +3. Na základe vypracovaného prehľadu a zoznamu požiadaviek navrhnite a vypracujte inteligentného agenta. +4. Agenta otestujte a vyhodnoťte formou dotazníka, identifikujte slabé miesta a navrhnite zlepšenia. Spolupráca: diff --git a/pages/students/2023/simona_bobrovcanova/README.md b/pages/students/2023/simona_bobrovcanova/README.md index 6386673aa..2693ce7b2 100644 --- a/pages/students/2023/simona_bobrovcanova/README.md +++ b/pages/students/2023/simona_bobrovcanova/README.md @@ -17,6 +17,13 @@ Téma: Automatická sumarizácia slovenského textu +Zadanie: + +1. Zostavte prehľad modelov a metód vhodných na automatickú sumarizáciu textov v slovenskom jazyku. +2. Vyberte viacero vhodných modelov a vykonajte sumarizáciu na vybranej množine. +3. Vyhodnoťte výsledky vhodnou metódou. +4. Identifikujte slabé miesta existujúceho spôsobu sumarizácie a navrhnite možné zlepšenia. + https://git.kemt.fei.tuke.sk/sb610oy/bakalarska-praca Ciele: diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index daacd6456..d654fe760 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -15,13 +15,30 @@ rok začiatku štúdia: 2023 Téma: -Extrakcia informácií z webových stránok +Získavanie textu z webových stránok + +Zadanie: + +1. Vypracujte prehľad webových korpusov a metód ich tvorby. +2. Vytvorte a nasadte webový crawler na sledovanie a sťahovanie slovenského internetu. +3. Pomocou crawlera získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. +4. Analyzujte získané dáta, priebeh ich sťahovania a navrhnite zlepšenia procesu získavania textových dát. + +Stretnutie 4.2.2025 + +Stav: + +- Crawler funguje, má web rozhranie + +Úlohy: + +- Pridaje zoznam prioritných webov a blacklist, pridajte preľad štatistík o doménach ((počet navštívených stréno, veľkosč získan=hop textu, počet získaných odkazov interné a externé)) z už získaných dát. +- Zamiešajte zoznam domén. Pridajte možnosť zamerať crawlera na určitý zoznam stránok. +- Snažte sa získať čo najviac textu. Sledujte činnosť crawlera, zobrazte grafy nazbieraného textu, odkazov, navštívených stránok, navštívených domén. +- Pokračujte v práci na texte BP, citujte vedecké články o "text mining", + -Predbežné zadanie: -1. Vypracujte prehľad webových korpusov a metód ich tvorby. -2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. -3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu. Stretnutie 18.12.2025