From 186a7b8cea78b8ae1c378882c676b0609c1f4daa Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Wed, 24 Sep 2025 12:37:22 +0200 Subject: [PATCH 01/25] zz --- pages/students/2023/maksym_zatirka/README.md | 40 ++++++++++++++++++++ 1 file changed, 40 insertions(+) create mode 100644 pages/students/2023/maksym_zatirka/README.md diff --git a/pages/students/2023/maksym_zatirka/README.md b/pages/students/2023/maksym_zatirka/README.md new file mode 100644 index 000000000..d709a2f76 --- /dev/null +++ b/pages/students/2023/maksym_zatirka/README.md @@ -0,0 +1,40 @@ +--- +title: Maksym Zatirka +published: true +taxonomy: + category: [bp2026] + tag: [nlp,graph,db] + author: Daniel Hladek +--- + + +rok začiatku štúdia: 2023 + +študent KM + + +# Bakalárska práca 2026 + + +Téma: + +Grafová databáza pre podporu generovania slovenského jazyka + + +Ciele: + +Vytvorte databázu pre vyhľadávanie v rozsudkoch s využitím grafovej informácie. + +Úlohy: + +- Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda. +- Poučte sa o strojovom účení. Dive into deep learning. +- Zistite čo je to Retrieval Augmented Generation a napíšte si o tom poznámky +- Pozrite si knižnicu [llamaindex](https://developers.llamaindex.ai/python/framework/). +- Zistite čo je to [znalostný graf](https://en.wikipedia.org/wiki/Knowledge_graph) +- Zistite ako funguje databáza Neo4J. +- Zistite čo je to SparkQL. +- Napíšte si poznámky z vecí ktoré ste sa naučili. Využívajte odborné články, ktoré nájdete na google scholar. + + + From ec69830de19b0484c73983c458d337dad6aaed99 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 2 Oct 2025 09:54:57 +0200 Subject: [PATCH 02/25] README.md --- pages/students/2023/maksym_zatirka/README.md | 15 +++++++++++++++ 1 file changed, 15 insertions(+) diff --git a/pages/students/2023/maksym_zatirka/README.md b/pages/students/2023/maksym_zatirka/README.md index d709a2f76..b4e6c4c18 100644 --- a/pages/students/2023/maksym_zatirka/README.md +++ b/pages/students/2023/maksym_zatirka/README.md @@ -25,8 +25,23 @@ Ciele: Vytvorte databázu pre vyhľadávanie v rozsudkoch s využitím grafovej informácie. +Stretnutie 2.10. + Úlohy: +- Prejdite si tutoriál https://python.langchain.com/docs/tutorials/rag/ +- Prejdite si tutoriály https://neo4j.com/docs/getting-started/appendix/tutorials/tutorials-overview/ +- Zistite, ako vieme využiť grafy pri RAG - ako skombinovať langchain a neo4j +- Pokračujte v štúdiu Python +- Prečítajte si články https://arxiv.org/abs/2408.08921 a https://ieeexplore.ieee.org/abstract/document/10771030 a robte si poznámky. + +Zásobník úloh: + +- Pripravte databázu znalosti zo súdnej domény pre zlepšenie vyhľadávania v rozsudkoch. + + +Predbežné úlohy: + - Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda. - Poučte sa o strojovom účení. Dive into deep learning. - Zistite čo je to Retrieval Augmented Generation a napíšte si o tom poznámky From ebda7b4a06b0fe965ad1257c0c025d427995cbef Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 2 Oct 2025 10:47:49 +0200 Subject: [PATCH 03/25] zz --- pages/topics/legal/README.md | 51 ++++++++++++++++++++++++++++++++++++ 1 file changed, 51 insertions(+) create mode 100644 pages/topics/legal/README.md diff --git a/pages/topics/legal/README.md b/pages/topics/legal/README.md new file mode 100644 index 000000000..f302e4822 --- /dev/null +++ b/pages/topics/legal/README.md @@ -0,0 +1,51 @@ +--- +title: Legal Data Processing +category: [project] +tag: [legal,nlp] +--- + +# Legal Data Processing Scientific Project + +Goal: + +- Help the slovak judges + +Possible applications: + +- agent retrieval agent to search in laws and processdings. +- question answering system + +Plan: + +- Develop a demo agent for legal and proceeding retrieval anad answering. +- Develop a summarization system - retrieve and highlight important parts of document. Generate a summary. + + +People: + +- Daniel Hládek +- Martin Šarišský +- Matej Ščišľak +- Maxim Zatyrka +- Oleksandr Dorybohov + +Tasks: + +- Create index of Slovak laws +- Create index of the Slovak Court proceedings. +- Fine-tune Slovak embedding model for the legal domain. +- Evaluate LLMS for the legal domain. +- Design legal data pre-processing (anonymization, de-anonymization) +- Create a knowledge graph (tezaurus) +- Create legal data summarization (extractive and abstractive) system. +- Create agent that utilizes OpenAPI + +Links: + +- OpenAPI pre prístup k údajom o súdoch a o rozsudkoch. https://obcan.justice.sk/pilot/api/ress-isu-service/swagger-ui/index.html +- https://www.justice.gov.sk/sluzby/register-partnerov-verejneho-sektora/open-data/ +- https://rpvs.gov.sk/opendatav2/swagger/index.html +- Databáza zákonov a register opatrení https://static.slov-lex.sk/ +- Tezaurus slovenského práva https://www.slov-lex.sk/tezaury/terminy - aj vzťahy ku právnym predpisom +- Znalostný graf údajov verejnej správy https://znalosti.gov.sk/ + From 33e253507d62f0645779dda18be420fe690edf84 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 2 Oct 2025 10:50:55 +0200 Subject: [PATCH 04/25] z --- pages/home/default.md | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/pages/home/default.md b/pages/home/default.md index 771cb4f37..356f67f2d 100644 --- a/pages/home/default.md +++ b/pages/home/default.md @@ -10,7 +10,7 @@ taxonomy: # Záverečné práce na KEMT -Wiki stánka pre spoluprácu na záverečných prácach. +Wiki stránka pre spoluprácu na záverečných prácach. - [Často kladené otázky](/topics/faq) - [Ako napíšem záverečnú prácu](/topics/akopisat) @@ -22,6 +22,9 @@ Wiki stánka pre spoluprácu na záverečných prácach. - [Bakalárske práce 2026](https://zp.kemt.fei.tuke.sk/taxonomy?name=category&val=bp2026) +## Bežiace projekty + +- [Spracovanie súdnych dát](/topics/legal) ## Ukončené projekty From 32c5a8a21721250162b0a57f11ef18728ff0db67 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 2 Oct 2025 14:29:41 +0200 Subject: [PATCH 05/25] zz --- pages/students/2021/artur_hyrenko/README.md | 15 ++++++++++++++- 1 file changed, 14 insertions(+), 1 deletion(-) diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index 82a68b430..e24d444a5 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -18,10 +18,23 @@ Vyhodnotenie jazykových modelov Možné ciele: -- Zistiť, či sú súčasné jazyové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka? +- Zistiť, či sú súčasné jazykové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka? - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch. - Navrhnúť zlepšenia na zvýšenie bezpečnosti. +Stretnutie 2.10. : + +Úlohy: + +- Pokračujte v otvorených úlohách. Kľúčové slovíčka: Python, TRL , LLM. +- Zistite čo je to Reinforcement Learning, RLHF, DPO, PEFT. +- Vyskúšajte si voľne dostupné LLM pomocou ollama. gpt-oss, gemma, qwen. +- Pozrite si databázy "nebezpečných promptov". Prečítajte si články. Pozrite si, aké články ich citujú. Použite google scholar. + +Zásobník úloh: + +- Zopakujte a vylepšite experimenty vo vybranom článku. + Stretnutie 11.6. : - Štúdium a vyskúšanie Python, Anaconda Transformers From ad606e8e8373e2c57cfcefccd844f4d466624f9f Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 2 Oct 2025 14:30:46 +0200 Subject: [PATCH 06/25] z --- pages/students/2021/artur_hyrenko/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index e24d444a5..813dbbc5c 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -34,6 +34,7 @@ Stretnutie 2.10. : Zásobník úloh: - Zopakujte a vylepšite experimenty vo vybranom článku. +- Finalizovať zadanie diplomovej práce. Stretnutie 11.6. : From 8429bdb20b10c7d3dfacc15e78130a3ae6e9e8a5 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Fri, 3 Oct 2025 09:53:51 +0200 Subject: [PATCH 07/25] zz --- pages/students/2023/denis_le_thanh/README.md | 20 ++++++++++++++++++++ 1 file changed, 20 insertions(+) diff --git a/pages/students/2023/denis_le_thanh/README.md b/pages/students/2023/denis_le_thanh/README.md index ceb7f92b1..224e8555c 100644 --- a/pages/students/2023/denis_le_thanh/README.md +++ b/pages/students/2023/denis_le_thanh/README.md @@ -28,6 +28,26 @@ Ciele: - Skúsiť dotrénovať slovenský generatívny model (slovak-mistral-7b) pre inštrukcie. +Stretnutie 3.10.2025 + +Stav: + +- Naštudované LLM, transformers, anaconda, Okapi, open instruct, ollama. + +Úlohy: + +- Naštudovať a vyskúšať PEFT-QLORA. +- Vyskúšajte si skript pre dotrénovanie Slovak Mistral.(poslal som cez Teams) +- Oboznámte sa s Huggingface TRL. +- Oboznámte sa s knižnicou "unsloth". +- Oboznámte sa s https://github.com/hiyouga/LLaMA-Factory +- Pracujte na teoretickej časti: opíšte základné pojmy, metódy a dátové množiny. Používajte google scholar a bibliografické odkazy. +- Najprv pracujte s domácou GPU, ak nebude stačiť pracujte s Google Coolab, ak nebude stačiť požiadajte konzultanta. + +Zásobník úloh: + +- Dotrénujte a vyhodnotte Slovak Mistral. + Stretnutie 26.2. Úlohy: From 76de9e4c631644bc9e9669863dade7bc632cb289 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Fri, 3 Oct 2025 10:33:24 +0200 Subject: [PATCH 08/25] zz --- .../students/2022/valerii_kutsenko/README.md | 24 +++++++++++++++++++ 1 file changed, 24 insertions(+) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index f96cd51ca..dcdd7581a 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -9,6 +9,30 @@ taxonomy: rok začiatku štúdia: 2022 +# Diplomová práca 2027 + +Nápady na tému: + +- Augmentácia dát - generovanie umelých trénovacích množín. +- Vyskúšať nové LLM na generovanie trénovacích dát. +- Použiť existujúce dáta - zlepšiť ich pomocou LLM alebo generovať podobné dáta. +- Generovať a overovať dáta pre vyhodnotenie modelov. +- Vyvmyslieť metódy pre vyhodnotenie "kvality dát" - ich "užitočnosť" pre trénovanie. +- Preskúmať metídy "učiteľ - žiak." Ako môže jeden model pomôcť pri trénovaní iného modelu. +- Vytvoriť novú doménovo orientovanú QA množinu. Vytvoriť Instruct množinu. +- Vytvoriť slovenský doménovo orientovaný model. + +Stretnutie 3.10. + +Úlohy: + +- Oboznámiť sa s novými metódami generovania trénovacích množín. Prečítejte si nové články na google scholar a urobte si poznámky. +- Kľúčové slovíčka: data augmentation, distillation, question generation, +- Pozrite si https://github.com/nlp-uoregon/Okapi +- Vyskúšať nové LLM pre generovanie, napr. pomocou ollama. gpt-oss, +- Pozrite si https://huggingface.co/docs/trl/en/index. Oboznámte sa s metódami GPO a SFT. Ako dokáže pomôcť existujúci model pri dotrénovaní nového modelu. + + # Bakalárska práca 2025 Automatické generovanie otázok zo zadaného textu From 1bcad1ab2026b41514710dd42517350ccffedb4b Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Fri, 3 Oct 2025 11:32:01 +0200 Subject: [PATCH 09/25] zz --- .../students/2023/rostyslav_rodzhuk/README.md | 22 ++++++++++++++++++- 1 file changed, 21 insertions(+), 1 deletion(-) diff --git a/pages/students/2023/rostyslav_rodzhuk/README.md b/pages/students/2023/rostyslav_rodzhuk/README.md index 285d512d6..0128a01b4 100644 --- a/pages/students/2023/rostyslav_rodzhuk/README.md +++ b/pages/students/2023/rostyslav_rodzhuk/README.md @@ -30,9 +30,29 @@ Predbežné zadanie: Úlohy: - Zistite, čo robí špeciálny pedagóg. -- Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenyt +- Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenty - Vytvorte inteligentného agenta, ktorý by na základe dokumentov navrhol najlepšie výchovné opatrenia. +Stretnutie 3.10.2025 + +Stav: + +- Oboznámenie sa s prácou špeciálneho pedagóga. + +Úlohy: + +- Pokračujte v štúdiu podporných opatrení. Môžete nájsť podobné stránky aj v ukrajinčine. Čo robí špeciálny pedagóg?Ako vieme pomôcť pri ich práci? Napíšte si poznámky. +- Pripravte si množinu dát - získajte dokumenty s podpornými opatreniami https://podporneopatrenia.minedu.sk/ a indexujte ju do databázy pre vyhľadávanie. Použite langchain. Na získanie môžete použiť wget. Na prípravu dát môžete použiť "https://github.com/docling-project/docling". +- Zistite čo je to RAG. Hľadajte "Retrieval Augmented Generation". Napíšte si poznámky. Používajte google scholar. +- Prejdite si tutoriál https://python.langchain.com/docs/tutorials/rag/ +- Implementujte RAG systém pre prácu so získanými dátami. +- Oboznámte sa s knižnicou Openai Agents SDK. +- Kódy na prípravu dát a kódy agenta dávajte na katedrový GIT - repozitár bp2026: + +Zásobník úloh: + +- Vytvorte agenta pre pomoc špeciálnemu pedagógovi. Agent vie prečítať zadané dokumenty a na základe otázok zvoliť najlepšie opatrenia. + # Vedecký projekt 2025 Veľký jazykový model ako inteligentný agent From e73e84bf0812f2254385a8dcccc1d8e4b04c70d4 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Fri, 3 Oct 2025 14:13:02 +0200 Subject: [PATCH 10/25] zz --- .../2023/oleksandr_dorybohov/README.md | 24 +++++++++++++++++-- 1 file changed, 22 insertions(+), 2 deletions(-) diff --git a/pages/students/2023/oleksandr_dorybohov/README.md b/pages/students/2023/oleksandr_dorybohov/README.md index 36b99cb8e..6a0044f5f 100644 --- a/pages/students/2023/oleksandr_dorybohov/README.md +++ b/pages/students/2023/oleksandr_dorybohov/README.md @@ -22,8 +22,6 @@ Ciele: Vytvorte agenta pre spracovanie slovenských právnych textov -Zvážiť zmenu domény na vzdelávanie. - Spolupráca: - Simona Bobrovčanová @@ -32,6 +30,28 @@ Spolupráca: - Martin Šarišský - Matej Ščišľak +Stretnutie 3.10.2025 + +Stav: + +- Štúdium Python, Anaconda, langgraph +- Základy LLM + +Úlohy: + +- Oboznámte sa so základmi LLM. Ako pracujú najnovšie modely? Zistite čo je to LLM function calling. Použite google scholar a píšte si poznámky. +- Vyskúšajte si ollama s novými modelmi. Napr. gpt-oss. +- Vyskúšajte si knižnicu openai-agents-sdk a prejdite si tutoriály. +- Treba vybrať knižnicu a model pre prácu s agentami. +- Pozrite si https://obcan.justice.sk/pilot/api/ress-isu-service/swagger-ui/index.html a https://www.justice.gov.sk/sluzby/register-partnerov-verejneho-sektora/open-data/ Podľa týchto odkazov si vyskúšajte REST rozhranie pre prácu s verejnými súdnymi API. Napr. cez curl, alebo Python requests. +- Zistitie, ako pracuje agent ktorý vie volať REST API . + +Zásobník úloh: + +- Vytvorte agenta, ktorý bude vedieť pracovať s verejne dostupným API a pomocou neho bude vedieť pomáhať právnikom a sudcom. +- Navrhnite WEB demo ku takémuto agentovi. + + Stretnutie 10.4. Úlohy: From 9b426873a63ec88fd6da14dea21eec465a522e12 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Fri, 3 Oct 2025 14:18:52 +0200 Subject: [PATCH 11/25] zz --- pages/students/2023/oleksandr_dorybohov/README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/pages/students/2023/oleksandr_dorybohov/README.md b/pages/students/2023/oleksandr_dorybohov/README.md index 6a0044f5f..c1f9a0b2a 100644 --- a/pages/students/2023/oleksandr_dorybohov/README.md +++ b/pages/students/2023/oleksandr_dorybohov/README.md @@ -22,6 +22,13 @@ Ciele: Vytvorte agenta pre spracovanie slovenských právnych textov +Predbežné zadanie: + +1. Vypracujte prehľad jazykových modelov s podporou slovenčiny a s podporou volania nástrojov. Opíšte spôsob ich práce a spôsob ich trénovania s dôrazom na volanie nástrojov. +2. Vyberte a opíšte vhodné verejné API pre prístup ku informáciám z právnej oblasti. +3. Navrhnite a vypravujte inteligentého agenta, ktorý bude vedieť používať toto API s cieľom pomôcť pri práci s právnou agendou. +4. Vytvorte webové demo pre interakciu s agentom. + Spolupráca: - Simona Bobrovčanová From 83c3ebaccc804f422808757bd0722d36970331bc Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Mon, 6 Oct 2025 10:17:36 +0200 Subject: [PATCH 12/25] zz --- pages/students/2022/samuel_vasil/README.md | 28 ++++++++++++++++++++++ 1 file changed, 28 insertions(+) create mode 100644 pages/students/2022/samuel_vasil/README.md diff --git a/pages/students/2022/samuel_vasil/README.md b/pages/students/2022/samuel_vasil/README.md new file mode 100644 index 000000000..dc7afc294 --- /dev/null +++ b/pages/students/2022/samuel_vasil/README.md @@ -0,0 +1,28 @@ +--- +title: Samuel Vasiľ +published: true +taxonomy: + category: [bp2026] + tag: [llm,nlp] + author: Daniel Hladek +--- + + +rok začiatku štúdia: 2022 + + +## Bakalárska práca 2026 + +konzultant Matúš Čavojský + +Predbežný názov: + +Orchestrácia veľkých jazykových modelov pomocou model context protokolu s využitím OpenWebUI + +Úlohy: + +- Vypracovať prehľad jazykových modelov s podporou slovenčiny pre úlohy generovania prirodzeného jazyka, generovania proprogramov a vyhľadávania. +- Nasadiť OpenWebUI pomocou Docker Compose +- Vybrať viacero vhodných modelov a sprístupniť ich pomoocou Webového rozhrania a REST API +- Pridať podporu RAG, vyhľadávania na webe, volania funkcií a nástrojov. + From a537a5bb2cf35ccfc960cfdb1ef843f1561513e6 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Wed, 8 Oct 2025 12:05:14 +0200 Subject: [PATCH 13/25] zz --- pages/topics/legal/README.md | 9 +++++---- 1 file changed, 5 insertions(+), 4 deletions(-) diff --git a/pages/topics/legal/README.md b/pages/topics/legal/README.md index f302e4822..622e33b0d 100644 --- a/pages/topics/legal/README.md +++ b/pages/topics/legal/README.md @@ -24,10 +24,11 @@ Plan: People: - Daniel Hládek -- Martin Šarišský -- Matej Ščišľak -- Maxim Zatyrka -- Oleksandr Dorybohov +- [Martin Šarišský](/students/2021/martin_sarissky) - agentový systém +- [Matej Ščišľak](/students/2021/matej_scislak) - sumarizácia +- [Maxim Zatyrka](/students/2023/maxim_zatyrka) - využitie grafovej informácie ( Tezaurus) +- [Oleksandr Dorybohov](/students/2023/oleksandr_dorybohov) - agent pre volanie REST +- [Simona Bobrovčanová](/students/2023/simona_bobrovcanova) - sumarizácia Tasks: From 915eb1539ab1169f0433000e70a6c48b9ac72bf4 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Wed, 8 Oct 2025 12:22:47 +0200 Subject: [PATCH 14/25] zz --- pages/topics/legal/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/topics/legal/README.md b/pages/topics/legal/README.md index 622e33b0d..c6b2ce25a 100644 --- a/pages/topics/legal/README.md +++ b/pages/topics/legal/README.md @@ -25,7 +25,7 @@ People: - Daniel Hládek - [Martin Šarišský](/students/2021/martin_sarissky) - agentový systém -- [Matej Ščišľak](/students/2021/matej_scislak) - sumarizácia +- [Matej Ščišľak](/students/2021/matej_scislak) - sumarizácia, dotrénovanie LLM - [Maxim Zatyrka](/students/2023/maxim_zatyrka) - využitie grafovej informácie ( Tezaurus) - [Oleksandr Dorybohov](/students/2023/oleksandr_dorybohov) - agent pre volanie REST - [Simona Bobrovčanová](/students/2023/simona_bobrovcanova) - sumarizácia From d5efd6b9143aa1867f3a5061157140c71f7d8183 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 9 Oct 2025 09:39:11 +0200 Subject: [PATCH 15/25] zz --- pages/students/2021/matej_novotny/README.md | 28 +++++++++++++++++++++ 1 file changed, 28 insertions(+) diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index b75cbec1e..bcae2a7c5 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -21,6 +21,34 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu. 2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana. 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model. +Stretnutie 9.10.2025 + +Stav: + +- HF transformers tutoriály na tokenizáciu. +- spísané poznámky - LLM a tokenizácia (2 PDF z google scholar) +- stiahnuté nejaké články v wikipédie a vyskúšaný klasifikačný skript. +- vytvorený prístup na novotny@titan.kemt.fei.tuke.sk . Používajte adresár /mnt/sharedhome/novotny + +Úlohy: + +- Oboznámte sa so skriptami a dátami v /mnt/sharedhome/hladek/bert-train corpus3, slavic1 +- Vytvorte skript pre rozpoznávanie nenávisti v texte. Cieľom je vytvoriť korpus bez "nenávistného" textu. Zistite, koľko nenávistných textov je vo webových korpusoch. +- Ak je to potrebné, natrénujte model pre ropoznávanie slovenského nenávistného textu. Použite skript pre klasifikáciu a dáta z https://huggingface.co/TUKE-KEMT - senti-sk, toxic-sk a `hate_speech_slovak`. +- Píšte si poznámku. + +Zásobník úloh: + +- Oboznámte sa s algoritmami v https://www.nltk.org/book/ch06.html +- Zistite, či sa nená nenávisť klasifikovať aj nejakou jednoduchšou metódou (bayes, ME) a porovnajte. +- Vytvorte model pre klasifikáciu druhu alebo témy textu. + +Úlohy: + +- Pošlite mi poznámky z DP v 6. týždni. +- Kódy z DP dávajte na katedrový GIT. +- Naučte sa pracovať s tmux alebo screen + Stretnutie 4.6.2025 From 0c36a39dcec8cf1ad957725619eb303e1fbbda54 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 9 Oct 2025 10:42:37 +0200 Subject: [PATCH 16/25] zz --- .../2023/yevhenii_medushivskyi/README.md | 25 +++++++++++++++++++ 1 file changed, 25 insertions(+) diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index 2405ec6f9..cd1a3a38b 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -23,6 +23,31 @@ Predbežné zadanie: 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. +Stretnutie 9.10.2025 + +Stav: + +- Pridané skripty pre pridanie hplt2 +- Prečítané Web Mining and Text mining - vypracované poznámky. +- Preštudované Docker. + +Úlohy: + +- Pozrite sa na HPLT3. +- Pozrite sa na https://github.com/lc/gau +- Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu. +- Zistite na čo je súbor robots.txt. +- Zistite, ako nasadiť aplikáciu pomocou Docker Compose. +- Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...) +- Mal by mať časť, ktorá sa zameriava na určité stránky (média, noviny, blogy, doménové stránky ) a časť ktorá zísava texty zo "statických" stránok. +- Mal by byť schopný sa vyhnúť "nekvalitným" stránkam - eshopom, "nevhodnému" obsahu. Mal by vedieť ohodnotiť "kvalitu" získaného textu. +- Crawler by mal mať webové rozhranie pre prehľad o jeho činnosti a výsledkoch. +- Kódy posielajte na katedrový git. +- Píšte si poznámky. Vypracujte prehľad existujúcich crawlerov a odborných článkov o text mining. Použite google scholar. + +Zásobník úloh + + Stretnutie 20.8.2025 Stav: From 5146aa1523b14e86556306d69b77ca35a4011db9 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 9 Oct 2025 10:43:53 +0200 Subject: [PATCH 17/25] zz --- pages/students/2023/yevhenii_medushivskyi/README.md | 3 +-- 1 file changed, 1 insertion(+), 2 deletions(-) diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index cd1a3a38b..ec1d52e01 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -21,7 +21,7 @@ Predbežné zadanie: 1. Vypracujte prehľad webových korpusov a metód ich tvorby. 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. -3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. +3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu. Stretnutie 9.10.2025 @@ -35,7 +35,6 @@ Stav: - Pozrite sa na HPLT3. - Pozrite sa na https://github.com/lc/gau -- Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu. - Zistite na čo je súbor robots.txt. - Zistite, ako nasadiť aplikáciu pomocou Docker Compose. - Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...) From e31cffd42c6a031a9205be155bbffcf36299707a Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 9 Oct 2025 11:44:30 +0200 Subject: [PATCH 18/25] zz --- .../2023/simona_bobrovcanova/README.md | 29 +++++++++++++++++++ 1 file changed, 29 insertions(+) diff --git a/pages/students/2023/simona_bobrovcanova/README.md b/pages/students/2023/simona_bobrovcanova/README.md index de2f08d55..6cd7a5430 100644 --- a/pages/students/2023/simona_bobrovcanova/README.md +++ b/pages/students/2023/simona_bobrovcanova/README.md @@ -22,6 +22,35 @@ Ciele: Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov. +Stretnutie 6.10.2025 + +Stav: + +- Preštudované deep learning +- Framework HF Transformers +- Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM + +Úlohy: + +- Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky. +- Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov. +- Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk. +- Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/ +- Pripravte si trénovacie a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy. +- Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia). +- "Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU. +- Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma, Slovak-t5-base +- skripty dajte na kemt git. + +Zásobník úloh: + +- Vyhodnotenie presnosti pomocou LLM +- Lepšie predspracovanie textu +- Generovanie rozhodnutia z odôvodnenia. +- sumarizácia zero shot, napr. pomocou gpt-oss + + + Stretnutie 3.4. Úlohy: From 94ca8b15c8ca7b03211b573b9dab9f22eaab0bc6 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 9 Oct 2025 14:09:36 +0200 Subject: [PATCH 19/25] zz --- pages/students/2023/samuel_dzurina/README.md | 20 ++++++++++++++++++++ 1 file changed, 20 insertions(+) diff --git a/pages/students/2023/samuel_dzurina/README.md b/pages/students/2023/samuel_dzurina/README.md index 0404e49a9..8b8810d89 100644 --- a/pages/students/2023/samuel_dzurina/README.md +++ b/pages/students/2023/samuel_dzurina/README.md @@ -32,8 +32,28 @@ Spolupráca: - Martin Šarišský - Matej Ščišľak +Stretnutie 9.10.2025 +Stav: +- Špedičná firma by využila colné pravidlá z EU do EU a CMR dohovor (dohovor o medzinárodnej zmluve o cestnej doprave). CMR dohovor - nákladný list, je formulár ktorý vyplní šofér alebo príjemca a je dokladom o vykonanej preprave. Niečo ako sprievodný list. +- Aké colné pravidlá platia pre prepravu konkrétneho druhu tovaru. +- Otázky sa týkajú colných vyhlásení. + +Otvorené otázky: + +- Pri akom konkrétnom procese vie pomôcť chatbot? Kto a ako sa tento proces vykonáva doteraz? +- Aké sú technické požiadavky na nasadenie? Má firma HW s GPU? Je možné dáta poslať mimo firmy? +- Ktoré konkrétne dáta vie agent využiť? Ktorá legislatíva (zákony, vyhlášky, zmluvy) je relevantná. +- Je možná formálna spolupráca "https://uvptechnicom.sk/spolupraca/#formy" alebo https://edihcassovium.sk/ ? + +Úlohy: + +- Zistite, ako pracuje RAG systém. Vypracujte tutoriál https://python.langchain.com/docs/tutorials/rag/ +- Pozrite sa na gogole scholar a prečítajte si odborné články na tému "retrieval augmented generation" . Napíšte si poznámky. +- Prečítajte si článok https://arxiv.org/abs/2401.03428 a napíšte si poznámky. +- Navrhnite modelový príklad použitia intelignetného agenta v špedičnej firme. +- Vyskúšajte https://openai.github.io/openai-agents-python/ a vytvorte prvú verziu agenta. Stretnutie 13.5.2025 From 3aef66f30991d2f73df4fcbb4d5265487a211091 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 10 Oct 2025 08:01:55 +0000 Subject: [PATCH 20/25] Update pages/students/2021/martin_sarissky/README.md --- pages/students/2021/martin_sarissky/README.md | 27 ++++++++++++++----- 1 file changed, 21 insertions(+), 6 deletions(-) diff --git a/pages/students/2021/martin_sarissky/README.md b/pages/students/2021/martin_sarissky/README.md index 5c187164e..ba83143d1 100644 --- a/pages/students/2021/martin_sarissky/README.md +++ b/pages/students/2021/martin_sarissky/README.md @@ -9,21 +9,36 @@ taxonomy: rok začiatku štúdia: 2021 -# Diplomová praca 2026 - +# Diplomová práca 2026 Ciele: - Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac -, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov. +, odpovedať na otázky a sumarizovať dokumenty. Je možné, že riešenie úlohy si vyžiada viac krokov. - Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému. - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. -Príprava: + +Stretnutie 10.10.2025 + +Stav: + +- Štúdium podľa odporúčania. Poznámky z oblasti znalostné grafy, langchain, SBERT, function calling - agent tools. LLM. +- Máme index zákonov. + +Úlohy: + +- Vytvorte systém pre generovanie odpovede na základe získaných dokumentov. +- Navrhnite agenta pre získanie relevantných informácií ku dotazu a generovanie odpovede. +Agent bude vedieť využívať viaceré nástroje, napr. verejné REST API alebo vyhľadávanie na internete. +- Ako modelový príklad použite otázky týkajúce sa colných konaní. Nájdite si príklady otázok z tejto oblasi. + + +Prázdninová Príprava: - Zopakujte si Python. -- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. -- Oboznámte sa s framewworkom LangChain. +- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si ollama. +- Oboznámte sa s frameworkom LangChain. - pozrite si LangChain Transformers Agents. - Ako funguje FunctionCalling - AgentTools?. - Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar. From 2d35b5ccf8e9d322e2f79c14e1b4d9edaccf451d Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 10 Oct 2025 08:04:51 +0000 Subject: [PATCH 21/25] Update pages/students/2021/martin_sarissky/README.md --- pages/students/2021/martin_sarissky/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2021/martin_sarissky/README.md b/pages/students/2021/martin_sarissky/README.md index ba83143d1..9cd20a923 100644 --- a/pages/students/2021/martin_sarissky/README.md +++ b/pages/students/2021/martin_sarissky/README.md @@ -32,7 +32,7 @@ Stav: - Navrhnite agenta pre získanie relevantných informácií ku dotazu a generovanie odpovede. Agent bude vedieť využívať viaceré nástroje, napr. verejné REST API alebo vyhľadávanie na internete. - Ako modelový príklad použite otázky týkajúce sa colných konaní. Nájdite si príklady otázok z tejto oblasi. - +- Oboznámte a vyskúšajte OpenAI Agents SDK alebo nový langchain alebo CrewAI. Prázdninová Príprava: From 1ffa1f956ff4ce9805592b1cecdcafcf3adb4bd8 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 10 Oct 2025 08:06:59 +0000 Subject: [PATCH 22/25] Update pages/students/2021/martin_sarissky/README.md --- pages/students/2021/martin_sarissky/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2021/martin_sarissky/README.md b/pages/students/2021/martin_sarissky/README.md index 9cd20a923..00a9b8687 100644 --- a/pages/students/2021/martin_sarissky/README.md +++ b/pages/students/2021/martin_sarissky/README.md @@ -33,6 +33,7 @@ Stav: Agent bude vedieť využívať viaceré nástroje, napr. verejné REST API alebo vyhľadávanie na internete. - Ako modelový príklad použite otázky týkajúce sa colných konaní. Nájdite si príklady otázok z tejto oblasi. - Oboznámte a vyskúšajte OpenAI Agents SDK alebo nový langchain alebo CrewAI. +- Do práce píšte o inteligentných agentoch, REACT, LLM, function calling. Prázdninová Príprava: From cff696754e017465f28c1dbc67f5ff7e6dec001b Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 10 Oct 2025 08:23:24 +0000 Subject: [PATCH 23/25] Update pages/students/2021/matej_scislak/README.md --- pages/students/2021/matej_scislak/README.md | 22 +++++++++++++++++++-- 1 file changed, 20 insertions(+), 2 deletions(-) diff --git a/pages/students/2021/matej_scislak/README.md b/pages/students/2021/matej_scislak/README.md index 1e753e601..e9915ee86 100644 --- a/pages/students/2021/matej_scislak/README.md +++ b/pages/students/2021/matej_scislak/README.md @@ -11,9 +11,27 @@ rok začiatku štúdia: 2021 Ciele: -- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. +- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov pomocou znalostných grafov -Príprava: +Stretnutie 10.10.2025 + +Stav: + +- Rozbehaný agent na báze ollama. +- naštudované RAG, function calling, retrieval, evaluation. + +Úlohy: + +- zistite, čo je to znalostný graf. Študujte "graph retrieval augmented generation" na google scholar. +- Oboznámte sa s databázou Neo4J - zistite ako ju využiť spolu s langchain. +- Zistite, ako vieme vylepšiť RAG pomocou znalostného grafu. +- Oboznámte sa s tezaurom slovenského práva. Konvertujte PDF s tezaurom do JSON +a skúste to zaindexovať (do Neo4J). +- Navrhnite prompt ktorý konvertuje otázku na Neo4J dopyt pre získanie relevantných dokumentov. +- skripty dávajte na GIT. + + +Letná Príprava: - Zopakujte si Python. - Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. From d0516888204e4738e799a35b6e47211efe4912a7 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 10 Oct 2025 08:25:35 +0000 Subject: [PATCH 24/25] Update pages/students/2021/matej_scislak/README.md --- pages/students/2021/matej_scislak/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2021/matej_scislak/README.md b/pages/students/2021/matej_scislak/README.md index e9915ee86..4b613b36a 100644 --- a/pages/students/2021/matej_scislak/README.md +++ b/pages/students/2021/matej_scislak/README.md @@ -25,7 +25,7 @@ Stav: - zistite, čo je to znalostný graf. Študujte "graph retrieval augmented generation" na google scholar. - Oboznámte sa s databázou Neo4J - zistite ako ju využiť spolu s langchain. - Zistite, ako vieme vylepšiť RAG pomocou znalostného grafu. -- Oboznámte sa s tezaurom slovenského práva. Konvertujte PDF s tezaurom do JSON +- Oboznámte sa s tezaurom slovenského práva. Konvertujte PDF s tezaurom do JSON. Použite docling alebo ollama s gpt-oss. a skúste to zaindexovať (do Neo4J). - Navrhnite prompt ktorý konvertuje otázku na Neo4J dopyt pre získanie relevantných dokumentov. - skripty dávajte na GIT. From 53f990bab349b0947354cb972513f465d132594a Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Fri, 10 Oct 2025 11:13:21 +0200 Subject: [PATCH 25/25] zz --- pages/students/2021/artur_hyrenko/README.md | 28 +++++++++++++++++++++ 1 file changed, 28 insertions(+) diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index 813dbbc5c..5e87ea516 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -22,6 +22,34 @@ Možné ciele: - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch. - Navrhnúť zlepšenia na zvýšenie bezpečnosti. +Stretnutie 10.10.2025: + +Stav: + +Preštudované: + +- https://github.com/EleutherAI/lm-evaluation-harness?utm_source=chatgpt.com +- https://github.com/confident-ai/deepeval?utm_source=chatgpt.com +- https://github.com/open-compass/opencompass?utm_source=chatgpt.com +- https://github.com/explodinggradients/ragas?utm_source=chatgpt.com +- https://github.com/braintrustdata/autoevals?utm_source=chatgpt.com + +Úlohy: + +- pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy. +- Vyskúšajte LLM s týmito databázami. Ako sa bydú správať? +- Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning? +- Používajte google scholar a píšte si poznámky. +- Pokračujte v otvorených úlohách - DPO. + +Zásobník úloh: + +- Vybrať metódy, vybrať databázu a vybrať model. Databázu vieme aj generovať - augmentovať. Alebo ju vieme ručne upraviť. +- Niektorú databázu viem aj preložiť. Prístup vieme použiť aj na nový jazykový model slovak-t5-large. +- Ako sa správajú modely v rôznych jazykoch? +- vyhodnotiť model z hľadiska bezpečnosti. +- upraviť správanie modelu tak aby sa zlepšilo. + Stretnutie 2.10. : Úlohy: