Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki

2025-10-24 09:16:46 +02:00 · 2025-10-24 09:16:46 +02:00 · 7585447505
commit 7585447505
parent 070b5c1acb 53f990bab3
15 changed files with 419 additions and 13 deletions
--- a/pages/home/default.md
+++ b/pages/home/default.md
@ -10,7 +10,7 @@ taxonomy:

 # Záverečné práce na KEMT

-Wiki stánka pre spoluprácu na záverečných prácach.
+Wiki stránka pre spoluprácu na záverečných prácach.

 - [Často kladené otázky](/topics/faq)
 - [Ako napíšem záverečnú prácu](/topics/akopisat)
@ -22,6 +22,9 @@ Wiki stánka pre spoluprácu na záverečných prácach.
 - [Bakalárske práce 2026](https://zp.kemt.fei.tuke.sk/taxonomy?name=category&val=bp2026)


+## Bežiace projekty
+
+- [Spracovanie súdnych dát](/topics/legal)

 ## Ukončené projekty

--- a/pages/students/2021/artur_hyrenko/README.md
+++ b/pages/students/2021/artur_hyrenko/README.md
@ -18,10 +18,52 @@ Vyhodnotenie jazykových modelov

 Možné ciele:

- Zistiť, či sú súčasné jazyové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka?
+- Zistiť, či sú súčasné jazykové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka?
 - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
 - Navrhnúť zlepšenia na zvýšenie bezpečnosti.

+Stretnutie 10.10.2025:
+
+Stav:
+
+Preštudované:
+
+- https://github.com/EleutherAI/lm-evaluation-harness?utm_source=chatgpt.com
+- https://github.com/confident-ai/deepeval?utm_source=chatgpt.com
+- https://github.com/open-compass/opencompass?utm_source=chatgpt.com
+- https://github.com/explodinggradients/ragas?utm_source=chatgpt.com
+- https://github.com/braintrustdata/autoevals?utm_source=chatgpt.com
+
+Úlohy:
+
+- pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy.
+- Vyskúšajte LLM s týmito databázami. Ako sa bydú správať?
+- Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning?
+- Používajte google scholar a píšte si poznámky.
+- Pokračujte v otvorených úlohách - DPO.
+
+Zásobník úloh:
+
+- Vybrať metódy, vybrať databázu a vybrať model. Databázu vieme aj generovať - augmentovať.  Alebo ju vieme ručne upraviť. 
+- Niektorú databázu viem aj preložiť. Prístup vieme použiť aj na nový jazykový model slovak-t5-large.
+- Ako sa správajú modely v rôznych jazykoch?
+- vyhodnotiť model z hľadiska bezpečnosti.
+- upraviť správanie modelu tak aby sa zlepšilo.
+
+Stretnutie 2.10. :
+
+Úlohy:
+
+- Pokračujte v otvorených úlohách. Kľúčové slovíčka: Python, TRL , LLM.
+- Zistite čo je to Reinforcement Learning, RLHF, DPO, PEFT.
+- Vyskúšajte si voľne dostupné LLM pomocou ollama. gpt-oss, gemma, qwen.
+- Pozrite si databázy "nebezpečných promptov". Prečítajte si články. Pozrite si, aké články ich citujú. Použite google scholar.
+
+Zásobník úloh:
+
+- Zopakujte a vylepšite experimenty vo vybranom článku.
+- Finalizovať zadanie diplomovej práce.
+
 Stretnutie 11.6. :

 - Štúdium a vyskúšanie Python, Anaconda Transformers
--- a/pages/students/2021/martin_sarissky/README.md
+++ b/pages/students/2021/martin_sarissky/README.md
@ -9,21 +9,37 @@ taxonomy:

 rok začiatku štúdia: 2021

-# Diplomová praca 2026
-
+# Diplomová práca 2026

 Ciele:

 - Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac
-, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov.
+, odpovedať na otázky a sumarizovať dokumenty. Je možné, že riešenie úlohy si vyžiada viac krokov.
 - Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
 - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.

-Príprava:
+
+Stretnutie 10.10.2025
+
+Stav:
+
+- Štúdium podľa odporúčania. Poznámky z oblasti znalostné grafy, langchain, SBERT, function calling - agent tools. LLM.
+- Máme index zákonov.
+
+Úlohy:
+
+- Vytvorte systém pre generovanie odpovede na základe získaných dokumentov.
+- Navrhnite agenta pre získanie relevantných informácií ku dotazu a generovanie odpovede. 
+Agent bude vedieť využívať viaceré nástroje, napr. verejné REST API alebo vyhľadávanie na internete.
+- Ako modelový príklad použite otázky týkajúce sa colných konaní. Nájdite si príklady otázok z tejto oblasi.
+- Oboznámte a vyskúšajte OpenAI Agents SDK alebo nový langchain alebo CrewAI.
+- Do práce píšte o inteligentných agentoch, REACT, LLM, function calling.
+
+Prázdninová Príprava:

 - Zopakujte si Python. 
- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. 
- Oboznámte sa s framewworkom LangChain. 
+- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si ollama. 
+- Oboznámte sa s frameworkom LangChain. 
 - pozrite si LangChain Transformers Agents. 
 - Ako funguje FunctionCalling - AgentTools?. 
 - Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar.
--- a/pages/students/2021/matej_novotny/README.md
+++ b/pages/students/2021/matej_novotny/README.md
@ -21,6 +21,34 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
 2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.

+Stretnutie 9.10.2025
+
+Stav:
+
+- HF transformers tutoriály na tokenizáciu.
+- spísané poznámky - LLM a tokenizácia (2 PDF z google scholar)
+- stiahnuté nejaké články v wikipédie a vyskúšaný klasifikačný skript.
+- vytvorený prístup na novotny@titan.kemt.fei.tuke.sk . Používajte adresár /mnt/sharedhome/novotny
+
+Úlohy:
+
+- Oboznámte sa so skriptami a dátami v /mnt/sharedhome/hladek/bert-train corpus3, slavic1
+- Vytvorte skript pre rozpoznávanie nenávisti v texte. Cieľom je vytvoriť korpus bez "nenávistného" textu. Zistite, koľko nenávistných textov je vo webových korpusoch. 
+- Ak je to potrebné, natrénujte model pre ropoznávanie slovenského nenávistného textu. Použite skript pre klasifikáciu a dáta z https://huggingface.co/TUKE-KEMT - senti-sk, toxic-sk a `hate_speech_slovak`.
+- Píšte si poznámku.
+
+Zásobník úloh:
+
+- Oboznámte sa s algoritmami v https://www.nltk.org/book/ch06.html
+- Zistite, či sa nená nenávisť klasifikovať aj nejakou jednoduchšou metódou (bayes, ME) a porovnajte.
+- Vytvorte model pre klasifikáciu druhu alebo témy textu.
+
+Úlohy:
+
+- Pošlite mi poznámky z DP v 6. týždni.
+- Kódy z DP dávajte na katedrový GIT.
+- Naučte sa pracovať s tmux alebo screen
+

 Stretnutie 4.6.2025

--- a/pages/students/2021/matej_scislak/README.md
+++ b/pages/students/2021/matej_scislak/README.md
@ -11,9 +11,27 @@ rok začiatku štúdia: 2021

 Ciele:

- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
+- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov pomocou znalostných grafov

-Príprava:
+Stretnutie 10.10.2025
+
+Stav:
+
+- Rozbehaný agent na báze ollama.
+- naštudované RAG, function calling, retrieval, evaluation. 
+
+Úlohy:
+
+- zistite, čo je to znalostný graf.  Študujte "graph retrieval augmented generation" na google scholar.
+- Oboznámte sa s databázou Neo4J - zistite ako ju využiť spolu s langchain.
+- Zistite, ako vieme vylepšiť RAG pomocou znalostného grafu.
+- Oboznámte sa s tezaurom slovenského práva. Konvertujte PDF s tezaurom do JSON. Použite docling alebo ollama s gpt-oss.
+a skúste to zaindexovať (do Neo4J).
+- Navrhnite prompt ktorý konvertuje otázku na Neo4J dopyt pre získanie relevantných dokumentov.
+- skripty dávajte na GIT.
+
+
+Letná Príprava:

 - Zopakujte si Python. 
 - Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. 
--- a/pages/students/2022/samuel_vasil/README.md
+++ b/pages/students/2022/samuel_vasil/README.md
@ -0,0 +1,28 @@
+---
+title: Samuel Vasiľ
+published: true
+taxonomy:
+    category: [bp2026]
+    tag: [llm,nlp]
+    author: Daniel Hladek
+---
+
+
+rok začiatku štúdia: 2022
+
+
+## Bakalárska práca 2026
+
+konzultant Matúš Čavojský
+
+Predbežný názov:
+
+Orchestrácia veľkých jazykových modelov pomocou model context protokolu s využitím OpenWebUI
+
+Úlohy:
+
+- Vypracovať prehľad jazykových modelov s podporou slovenčiny pre úlohy generovania prirodzeného jazyka, generovania proprogramov a vyhľadávania.
+- Nasadiť OpenWebUI pomocou Docker Compose
+- Vybrať viacero vhodných modelov a sprístupniť ich pomoocou Webového rozhrania a REST API
+- Pridať podporu RAG, vyhľadávania na webe, volania funkcií a nástrojov.
+
--- a/pages/students/2022/valerii_kutsenko/README.md
+++ b/pages/students/2022/valerii_kutsenko/README.md
@ -9,6 +9,30 @@ taxonomy:

 rok začiatku štúdia: 2022

+# Diplomová práca 2027
+
+Nápady na tému:
+
+- Augmentácia dát - generovanie umelých trénovacích  množín.
+- Vyskúšať nové LLM na generovanie trénovacích dát.
+- Použiť existujúce dáta - zlepšiť ich pomocou LLM alebo generovať podobné dáta.
+- Generovať  a overovať dáta pre vyhodnotenie modelov.
+- Vyvmyslieť metódy pre vyhodnotenie "kvality dát" - ich "užitočnosť" pre trénovanie.
+- Preskúmať metídy "učiteľ - žiak." Ako môže jeden model pomôcť pri trénovaní iného modelu.
+- Vytvoriť novú doménovo orientovanú QA množinu.  Vytvoriť Instruct množinu.
+- Vytvoriť slovenský doménovo orientovaný model. 
+
+Stretnutie 3.10.
+
+Úlohy:
+
+- Oboznámiť sa s novými metódami generovania trénovacích množín. Prečítejte si nové články na google scholar a urobte si poznámky. 
+- Kľúčové slovíčka: data augmentation,  distillation, question generation, 
+- Pozrite si https://github.com/nlp-uoregon/Okapi
+- Vyskúšať nové LLM pre generovanie, napr. pomocou ollama. gpt-oss, 
+- Pozrite si https://huggingface.co/docs/trl/en/index. Oboznámte sa s metódami GPO a SFT. Ako dokáže pomôcť existujúci model pri dotrénovaní nového modelu. 
+
+
 # Bakalárska práca 2025

 Automatické generovanie otázok zo zadaného textu
--- a/pages/students/2023/denis_le_thanh/README.md
+++ b/pages/students/2023/denis_le_thanh/README.md
@ -28,6 +28,26 @@ Ciele:

 - Skúsiť dotrénovať slovenský generatívny model (slovak-mistral-7b) pre inštrukcie.

+Stretnutie 3.10.2025
+
+Stav:
+
+- Naštudované LLM, transformers, anaconda, Okapi, open instruct, ollama. 
+
+Úlohy:
+
+- Naštudovať a vyskúšať PEFT-QLORA.
+- Vyskúšajte si skript pre dotrénovanie Slovak Mistral.(poslal som cez Teams)
+- Oboznámte sa s Huggingface TRL.
+- Oboznámte sa s knižnicou "unsloth".
+- Oboznámte sa s https://github.com/hiyouga/LLaMA-Factory
+- Pracujte na teoretickej časti: opíšte základné pojmy, metódy a dátové množiny. Používajte google scholar a bibliografické odkazy.
+- Najprv pracujte s domácou GPU, ak nebude stačiť pracujte s Google Coolab, ak nebude stačiť požiadajte konzultanta.
+
+Zásobník úloh:
+
+- Dotrénujte a vyhodnotte Slovak Mistral.
+
 Stretnutie 26.2.

 Úlohy:
--- a/pages/students/2023/maksym_zatirka/README.md
+++ b/pages/students/2023/maksym_zatirka/README.md
@ -0,0 +1,55 @@
+---
+title: Maksym Zatirka
+published: true
+taxonomy:
+    category: [bp2026]
+    tag: [nlp,graph,db]
+    author: Daniel Hladek
+---
+
+
+rok začiatku štúdia: 2023
+
+študent KM
+
+
+# Bakalárska práca 2026
+
+
+Téma:
+
+Grafová databáza pre podporu generovania slovenského jazyka
+
+
+Ciele:
+
+Vytvorte databázu pre vyhľadávanie v rozsudkoch s využitím grafovej informácie.
+
+Stretnutie 2.10. 
+
+Úlohy:
+
+- Prejdite si tutoriál https://python.langchain.com/docs/tutorials/rag/
+- Prejdite si tutoriály https://neo4j.com/docs/getting-started/appendix/tutorials/tutorials-overview/
+- Zistite, ako vieme využiť grafy pri RAG - ako skombinovať langchain a neo4j
+- Pokračujte v štúdiu Python 
+- Prečítajte si články https://arxiv.org/abs/2408.08921 a https://ieeexplore.ieee.org/abstract/document/10771030 a robte si poznámky.
+
+Zásobník úloh:
+
+- Pripravte databázu znalosti zo súdnej domény pre zlepšenie vyhľadávania v rozsudkoch. 
+
+
+Predbežné úlohy:
+
+- Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
+- Poučte sa o strojovom účení. Dive into deep learning.
+- Zistite čo je to Retrieval Augmented Generation a napíšte si o tom poznámky
+- Pozrite si knižnicu [llamaindex](https://developers.llamaindex.ai/python/framework/).
+- Zistite čo je to [znalostný graf](https://en.wikipedia.org/wiki/Knowledge_graph)
+- Zistite ako funguje databáza Neo4J.
+- Zistite čo je to SparkQL.
+- Napíšte si poznámky z vecí ktoré ste sa naučili. Využívajte odborné články, ktoré nájdete na google scholar.
+
+
+
--- a/pages/students/2023/oleksandr_dorybohov/README.md
+++ b/pages/students/2023/oleksandr_dorybohov/README.md
@ -22,7 +22,12 @@ Ciele:

 Vytvorte agenta pre spracovanie slovenských právnych textov 

-Zvážiť zmenu domény na vzdelávanie.
+Predbežné zadanie:
+
+1. Vypracujte prehľad jazykových modelov s podporou slovenčiny a s podporou volania nástrojov. Opíšte spôsob ich práce a spôsob ich trénovania s dôrazom na volanie nástrojov.
+2. Vyberte a opíšte vhodné verejné API pre prístup ku informáciám z právnej oblasti.
+3. Navrhnite a vypravujte inteligentého agenta, ktorý bude vedieť používať toto API s cieľom pomôcť pri práci s právnou agendou.
+4. Vytvorte webové demo pre interakciu s agentom.

 Spolupráca:

@ -32,6 +37,28 @@ Spolupráca:
 - Martin Šarišský
 - Matej Ščišľak 

+Stretnutie 3.10.2025
+
+Stav:
+
+- Štúdium Python, Anaconda, langgraph
+- Základy LLM
+
+Úlohy:
+
+- Oboznámte sa so základmi LLM. Ako pracujú najnovšie modely? Zistite čo je to LLM function calling. Použite google scholar a píšte si poznámky.
+- Vyskúšajte si ollama s novými modelmi. Napr. gpt-oss.
+- Vyskúšajte si knižnicu openai-agents-sdk a prejdite si tutoriály.
+- Treba vybrať knižnicu a model pre prácu s agentami. 
+- Pozrite si https://obcan.justice.sk/pilot/api/ress-isu-service/swagger-ui/index.html a https://www.justice.gov.sk/sluzby/register-partnerov-verejneho-sektora/open-data/ Podľa týchto odkazov si vyskúšajte REST rozhranie pre prácu s verejnými súdnymi API. Napr. cez curl, alebo Python requests.
+- Zistitie, ako pracuje agent ktorý vie volať REST API .
+
+Zásobník úloh:
+
+- Vytvorte agenta, ktorý bude vedieť pracovať s verejne dostupným API a pomocou neho bude vedieť pomáhať právnikom a sudcom.
+- Navrhnite WEB demo ku takémuto agentovi.
+
+
 Stretnutie 10.4.

 Úlohy:
--- a/pages/students/2023/rostyslav_rodzhuk/README.md
+++ b/pages/students/2023/rostyslav_rodzhuk/README.md
@ -30,9 +30,29 @@ Predbežné zadanie:
 Úlohy:

 - Zistite, čo robí špeciálny pedagóg.
- Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenyt
+- Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenty
 - Vytvorte inteligentného agenta, ktorý by na základe dokumentov navrhol najlepšie výchovné opatrenia.

+Stretnutie 3.10.2025
+
+Stav:
+
+- Oboznámenie sa s prácou špeciálneho pedagóga.
+
+Úlohy:
+
+- Pokračujte v štúdiu podporných opatrení. Môžete nájsť podobné stránky aj v ukrajinčine. Čo robí špeciálny pedagóg?Ako vieme pomôcť pri ich práci? Napíšte si poznámky.
+- Pripravte si množinu dát - získajte dokumenty s podpornými opatreniami https://podporneopatrenia.minedu.sk/ a indexujte ju do databázy pre vyhľadávanie. Použite langchain. Na získanie môžete použiť wget. Na prípravu dát môžete použiť "https://github.com/docling-project/docling".
+- Zistite čo je to RAG. Hľadajte "Retrieval Augmented Generation". Napíšte si poznámky. Používajte google scholar. 
+- Prejdite si tutoriál https://python.langchain.com/docs/tutorials/rag/
+- Implementujte RAG systém pre prácu so získanými dátami.
+- Oboznámte sa s knižnicou Openai Agents SDK.
+- Kódy na prípravu dát a kódy agenta dávajte na katedrový GIT - repozitár bp2026:
+
+Zásobník úloh:
+
+- Vytvorte agenta pre pomoc špeciálnemu pedagógovi. Agent vie prečítať zadané dokumenty a na základe otázok zvoliť najlepšie opatrenia. 
+
 # Vedecký projekt 2025

 Veľký jazykový model ako inteligentný agent
--- a/pages/students/2023/samuel_dzurina/README.md
+++ b/pages/students/2023/samuel_dzurina/README.md
@ -32,8 +32,28 @@ Spolupráca:
 - Martin Šarišský
 - Matej Ščišľak 

+Stretnutie 9.10.2025

+Stav:

+- Špedičná firma by využila colné pravidlá z EU do EU a CMR dohovor (dohovor o medzinárodnej zmluve o cestnej doprave).  CMR dohovor - nákladný list, je formulár ktorý vyplní šofér alebo príjemca a je dokladom o vykonanej preprave. Niečo ako sprievodný list. 
+- Aké colné pravidlá platia pre prepravu konkrétneho druhu tovaru.
+- Otázky sa týkajú colných vyhlásení.
+
+Otvorené otázky:
+
+- Pri akom konkrétnom procese vie pomôcť chatbot? Kto a ako sa tento proces vykonáva doteraz?
+- Aké sú technické požiadavky na nasadenie? Má firma HW s GPU? Je možné dáta poslať mimo firmy?
+- Ktoré konkrétne dáta vie agent využiť? Ktorá legislatíva (zákony, vyhlášky, zmluvy) je relevantná.
+- Je možná formálna spolupráca "https://uvptechnicom.sk/spolupraca/#formy" alebo https://edihcassovium.sk/ ?
+
+Úlohy:
+
+- Zistite, ako pracuje RAG systém. Vypracujte tutoriál https://python.langchain.com/docs/tutorials/rag/
+- Pozrite sa na gogole scholar a prečítajte si odborné články na tému "retrieval augmented generation" . Napíšte si poznámky.
+- Prečítajte si článok https://arxiv.org/abs/2401.03428 a napíšte si poznámky.
+- Navrhnite modelový príklad použitia intelignetného agenta v špedičnej firme.
+- Vyskúšajte https://openai.github.io/openai-agents-python/ a vytvorte prvú verziu agenta.

 Stretnutie 13.5.2025

--- a/pages/students/2023/simona_bobrovcanova/README.md
+++ b/pages/students/2023/simona_bobrovcanova/README.md
@ -22,6 +22,35 @@ Ciele:

 Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov.

+Stretnutie 6.10.2025
+
+Stav:
+
+- Preštudované deep learning
+- Framework HF Transformers
+- Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM
+
+Úlohy:
+
+- Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky.
+- Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov.
+- Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk.
+- Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/
+- Pripravte si trénovacie  a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy.
+- Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia). 
+- "Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU.
+- Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma,  Slovak-t5-base
+- skripty dajte na kemt git.
+
+Zásobník úloh:
+
+- Vyhodnotenie presnosti pomocou LLM
+- Lepšie predspracovanie textu
+- Generovanie rozhodnutia z odôvodnenia.
+- sumarizácia zero shot, napr. pomocou gpt-oss
+
+
+
 Stretnutie 3.4.

 Úlohy:
--- a/pages/students/2023/yevhenii_medushivskyi/README.md
+++ b/pages/students/2023/yevhenii_medushivskyi/README.md
@ -21,7 +21,31 @@ Predbežné zadanie:

 1. Vypracujte prehľad webových korpusov a metód ich tvorby.
 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
-3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
+3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
+
+Stretnutie 9.10.2025
+
+Stav:
+
+- Pridané skripty pre pridanie hplt2
+- Prečítané Web Mining and Text mining - vypracované poznámky.
+- Preštudované Docker.
+
+Úlohy:
+
+- Pozrite sa na HPLT3.
+- Pozrite sa na https://github.com/lc/gau
+- Zistite na čo je súbor robots.txt.
+- Zistite, ako nasadiť aplikáciu pomocou Docker Compose.
+- Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...)
+- Mal by mať časť, ktorá sa zameriava na určité stránky  (média, noviny, blogy, doménové stránky ) a časť ktorá zísava texty zo "statických" stránok.
+- Mal by byť schopný sa vyhnúť "nekvalitným" stránkam - eshopom, "nevhodnému" obsahu. Mal by vedieť ohodnotiť "kvalitu" získaného textu. 
+- Crawler by mal mať webové rozhranie pre prehľad o jeho činnosti a výsledkoch.
+- Kódy posielajte na katedrový git.
+- Píšte si poznámky. Vypracujte prehľad existujúcich crawlerov a odborných článkov o text mining. Použite google scholar.
+
+Zásobník úloh
+

 Stretnutie 20.8.2025

--- a/pages/topics/legal/README.md
+++ b/pages/topics/legal/README.md
@ -0,0 +1,52 @@
+---
+title: Legal Data Processing
+category: [project]
+tag: [legal,nlp]
+---
+
+# Legal Data Processing Scientific Project
+
+Goal:
+
+- Help the slovak judges 
+
+Possible applications:
+
+- agent retrieval agent to search in laws and processdings.
+- question answering system
+
+Plan:
+
+- Develop a demo agent for  legal and proceeding  retrieval anad answering.
+- Develop a summarization system - retrieve and highlight important parts of document. Generate a summary.
+
+
+People:
+
+- Daniel Hládek
+- [Martin Šarišský](/students/2021/martin_sarissky)  - agentový systém
+- [Matej Ščišľak](/students/2021/matej_scislak) - sumarizácia, dotrénovanie LLM
+- [Maxim Zatyrka](/students/2023/maxim_zatyrka) - využitie grafovej informácie ( Tezaurus)
+- [Oleksandr Dorybohov](/students/2023/oleksandr_dorybohov) - agent pre volanie REST
+- [Simona Bobrovčanová](/students/2023/simona_bobrovcanova) - sumarizácia
+
+Tasks:
+
+- Create index of Slovak laws
+- Create index of the Slovak Court proceedings.
+- Fine-tune Slovak embedding model for the legal domain.
+- Evaluate LLMS for the legal domain.
+- Design legal data pre-processing (anonymization, de-anonymization)
+- Create a knowledge graph (tezaurus)
+- Create legal data summarization (extractive and abstractive) system.
+- Create agent that utilizes OpenAPI
+
+Links:
+
+- OpenAPI pre prístup k údajom o súdoch a o rozsudkoch. https://obcan.justice.sk/pilot/api/ress-isu-service/swagger-ui/index.html
+- https://www.justice.gov.sk/sluzby/register-partnerov-verejneho-sektora/open-data/
+- https://rpvs.gov.sk/opendatav2/swagger/index.html
+- Databáza zákonov a register opatrení https://static.slov-lex.sk/
+- Tezaurus slovenského práva https://www.slov-lex.sk/tezaury/terminy  - aj vzťahy ku právnym predpisom
+- Znalostný graf údajov verejnej správy https://znalosti.gov.sk/
+