Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki
This commit is contained in:
commit
7585447505
@ -10,7 +10,7 @@ taxonomy:
|
||||
|
||||
# Záverečné práce na KEMT
|
||||
|
||||
Wiki stánka pre spoluprácu na záverečných prácach.
|
||||
Wiki stránka pre spoluprácu na záverečných prácach.
|
||||
|
||||
- [Často kladené otázky](/topics/faq)
|
||||
- [Ako napíšem záverečnú prácu](/topics/akopisat)
|
||||
@ -22,6 +22,9 @@ Wiki stánka pre spoluprácu na záverečných prácach.
|
||||
- [Bakalárske práce 2026](https://zp.kemt.fei.tuke.sk/taxonomy?name=category&val=bp2026)
|
||||
|
||||
|
||||
## Bežiace projekty
|
||||
|
||||
- [Spracovanie súdnych dát](/topics/legal)
|
||||
|
||||
## Ukončené projekty
|
||||
|
||||
|
||||
@ -18,10 +18,52 @@ Vyhodnotenie jazykových modelov
|
||||
|
||||
Možné ciele:
|
||||
|
||||
- Zistiť, či sú súčasné jazyové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka?
|
||||
- Zistiť, či sú súčasné jazykové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka?
|
||||
- Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch.
|
||||
- Navrhnúť zlepšenia na zvýšenie bezpečnosti.
|
||||
|
||||
Stretnutie 10.10.2025:
|
||||
|
||||
Stav:
|
||||
|
||||
Preštudované:
|
||||
|
||||
- https://github.com/EleutherAI/lm-evaluation-harness?utm_source=chatgpt.com
|
||||
- https://github.com/confident-ai/deepeval?utm_source=chatgpt.com
|
||||
- https://github.com/open-compass/opencompass?utm_source=chatgpt.com
|
||||
- https://github.com/explodinggradients/ragas?utm_source=chatgpt.com
|
||||
- https://github.com/braintrustdata/autoevals?utm_source=chatgpt.com
|
||||
|
||||
Úlohy:
|
||||
|
||||
- pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy.
|
||||
- Vyskúšajte LLM s týmito databázami. Ako sa bydú správať?
|
||||
- Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning?
|
||||
- Používajte google scholar a píšte si poznámky.
|
||||
- Pokračujte v otvorených úlohách - DPO.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Vybrať metódy, vybrať databázu a vybrať model. Databázu vieme aj generovať - augmentovať. Alebo ju vieme ručne upraviť.
|
||||
- Niektorú databázu viem aj preložiť. Prístup vieme použiť aj na nový jazykový model slovak-t5-large.
|
||||
- Ako sa správajú modely v rôznych jazykoch?
|
||||
- vyhodnotiť model z hľadiska bezpečnosti.
|
||||
- upraviť správanie modelu tak aby sa zlepšilo.
|
||||
|
||||
Stretnutie 2.10. :
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračujte v otvorených úlohách. Kľúčové slovíčka: Python, TRL , LLM.
|
||||
- Zistite čo je to Reinforcement Learning, RLHF, DPO, PEFT.
|
||||
- Vyskúšajte si voľne dostupné LLM pomocou ollama. gpt-oss, gemma, qwen.
|
||||
- Pozrite si databázy "nebezpečných promptov". Prečítajte si články. Pozrite si, aké články ich citujú. Použite google scholar.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Zopakujte a vylepšite experimenty vo vybranom článku.
|
||||
- Finalizovať zadanie diplomovej práce.
|
||||
|
||||
Stretnutie 11.6. :
|
||||
|
||||
- Štúdium a vyskúšanie Python, Anaconda Transformers
|
||||
|
||||
@ -9,21 +9,37 @@ taxonomy:
|
||||
|
||||
rok začiatku štúdia: 2021
|
||||
|
||||
# Diplomová praca 2026
|
||||
|
||||
# Diplomová práca 2026
|
||||
|
||||
Ciele:
|
||||
|
||||
- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac
|
||||
, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov.
|
||||
, odpovedať na otázky a sumarizovať dokumenty. Je možné, že riešenie úlohy si vyžiada viac krokov.
|
||||
- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému.
|
||||
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
|
||||
|
||||
Príprava:
|
||||
|
||||
Stretnutie 10.10.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Štúdium podľa odporúčania. Poznámky z oblasti znalostné grafy, langchain, SBERT, function calling - agent tools. LLM.
|
||||
- Máme index zákonov.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Vytvorte systém pre generovanie odpovede na základe získaných dokumentov.
|
||||
- Navrhnite agenta pre získanie relevantných informácií ku dotazu a generovanie odpovede.
|
||||
Agent bude vedieť využívať viaceré nástroje, napr. verejné REST API alebo vyhľadávanie na internete.
|
||||
- Ako modelový príklad použite otázky týkajúce sa colných konaní. Nájdite si príklady otázok z tejto oblasi.
|
||||
- Oboznámte a vyskúšajte OpenAI Agents SDK alebo nový langchain alebo CrewAI.
|
||||
- Do práce píšte o inteligentných agentoch, REACT, LLM, function calling.
|
||||
|
||||
Prázdninová Príprava:
|
||||
|
||||
- Zopakujte si Python.
|
||||
- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama.
|
||||
- Oboznámte sa s framewworkom LangChain.
|
||||
- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si ollama.
|
||||
- Oboznámte sa s frameworkom LangChain.
|
||||
- pozrite si LangChain Transformers Agents.
|
||||
- Ako funguje FunctionCalling - AgentTools?.
|
||||
- Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar.
|
||||
|
||||
@ -21,6 +21,34 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.
|
||||
2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
|
||||
3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.
|
||||
|
||||
Stretnutie 9.10.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- HF transformers tutoriály na tokenizáciu.
|
||||
- spísané poznámky - LLM a tokenizácia (2 PDF z google scholar)
|
||||
- stiahnuté nejaké články v wikipédie a vyskúšaný klasifikačný skript.
|
||||
- vytvorený prístup na novotny@titan.kemt.fei.tuke.sk . Používajte adresár /mnt/sharedhome/novotny
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Oboznámte sa so skriptami a dátami v /mnt/sharedhome/hladek/bert-train corpus3, slavic1
|
||||
- Vytvorte skript pre rozpoznávanie nenávisti v texte. Cieľom je vytvoriť korpus bez "nenávistného" textu. Zistite, koľko nenávistných textov je vo webových korpusoch.
|
||||
- Ak je to potrebné, natrénujte model pre ropoznávanie slovenského nenávistného textu. Použite skript pre klasifikáciu a dáta z https://huggingface.co/TUKE-KEMT - senti-sk, toxic-sk a `hate_speech_slovak`.
|
||||
- Píšte si poznámku.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Oboznámte sa s algoritmami v https://www.nltk.org/book/ch06.html
|
||||
- Zistite, či sa nená nenávisť klasifikovať aj nejakou jednoduchšou metódou (bayes, ME) a porovnajte.
|
||||
- Vytvorte model pre klasifikáciu druhu alebo témy textu.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pošlite mi poznámky z DP v 6. týždni.
|
||||
- Kódy z DP dávajte na katedrový GIT.
|
||||
- Naučte sa pracovať s tmux alebo screen
|
||||
|
||||
|
||||
Stretnutie 4.6.2025
|
||||
|
||||
|
||||
@ -11,9 +11,27 @@ rok začiatku štúdia: 2021
|
||||
|
||||
Ciele:
|
||||
|
||||
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
|
||||
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov pomocou znalostných grafov
|
||||
|
||||
Príprava:
|
||||
Stretnutie 10.10.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Rozbehaný agent na báze ollama.
|
||||
- naštudované RAG, function calling, retrieval, evaluation.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- zistite, čo je to znalostný graf. Študujte "graph retrieval augmented generation" na google scholar.
|
||||
- Oboznámte sa s databázou Neo4J - zistite ako ju využiť spolu s langchain.
|
||||
- Zistite, ako vieme vylepšiť RAG pomocou znalostného grafu.
|
||||
- Oboznámte sa s tezaurom slovenského práva. Konvertujte PDF s tezaurom do JSON. Použite docling alebo ollama s gpt-oss.
|
||||
a skúste to zaindexovať (do Neo4J).
|
||||
- Navrhnite prompt ktorý konvertuje otázku na Neo4J dopyt pre získanie relevantných dokumentov.
|
||||
- skripty dávajte na GIT.
|
||||
|
||||
|
||||
Letná Príprava:
|
||||
|
||||
- Zopakujte si Python.
|
||||
- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama.
|
||||
|
||||
28
pages/students/2022/samuel_vasil/README.md
Normal file
28
pages/students/2022/samuel_vasil/README.md
Normal file
@ -0,0 +1,28 @@
|
||||
---
|
||||
title: Samuel Vasiľ
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [bp2026]
|
||||
tag: [llm,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
||||
|
||||
rok začiatku štúdia: 2022
|
||||
|
||||
|
||||
## Bakalárska práca 2026
|
||||
|
||||
konzultant Matúš Čavojský
|
||||
|
||||
Predbežný názov:
|
||||
|
||||
Orchestrácia veľkých jazykových modelov pomocou model context protokolu s využitím OpenWebUI
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Vypracovať prehľad jazykových modelov s podporou slovenčiny pre úlohy generovania prirodzeného jazyka, generovania proprogramov a vyhľadávania.
|
||||
- Nasadiť OpenWebUI pomocou Docker Compose
|
||||
- Vybrať viacero vhodných modelov a sprístupniť ich pomoocou Webového rozhrania a REST API
|
||||
- Pridať podporu RAG, vyhľadávania na webe, volania funkcií a nástrojov.
|
||||
|
||||
@ -9,6 +9,30 @@ taxonomy:
|
||||
|
||||
rok začiatku štúdia: 2022
|
||||
|
||||
# Diplomová práca 2027
|
||||
|
||||
Nápady na tému:
|
||||
|
||||
- Augmentácia dát - generovanie umelých trénovacích množín.
|
||||
- Vyskúšať nové LLM na generovanie trénovacích dát.
|
||||
- Použiť existujúce dáta - zlepšiť ich pomocou LLM alebo generovať podobné dáta.
|
||||
- Generovať a overovať dáta pre vyhodnotenie modelov.
|
||||
- Vyvmyslieť metódy pre vyhodnotenie "kvality dát" - ich "užitočnosť" pre trénovanie.
|
||||
- Preskúmať metídy "učiteľ - žiak." Ako môže jeden model pomôcť pri trénovaní iného modelu.
|
||||
- Vytvoriť novú doménovo orientovanú QA množinu. Vytvoriť Instruct množinu.
|
||||
- Vytvoriť slovenský doménovo orientovaný model.
|
||||
|
||||
Stretnutie 3.10.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Oboznámiť sa s novými metódami generovania trénovacích množín. Prečítejte si nové články na google scholar a urobte si poznámky.
|
||||
- Kľúčové slovíčka: data augmentation, distillation, question generation,
|
||||
- Pozrite si https://github.com/nlp-uoregon/Okapi
|
||||
- Vyskúšať nové LLM pre generovanie, napr. pomocou ollama. gpt-oss,
|
||||
- Pozrite si https://huggingface.co/docs/trl/en/index. Oboznámte sa s metódami GPO a SFT. Ako dokáže pomôcť existujúci model pri dotrénovaní nového modelu.
|
||||
|
||||
|
||||
# Bakalárska práca 2025
|
||||
|
||||
Automatické generovanie otázok zo zadaného textu
|
||||
|
||||
@ -28,6 +28,26 @@ Ciele:
|
||||
|
||||
- Skúsiť dotrénovať slovenský generatívny model (slovak-mistral-7b) pre inštrukcie.
|
||||
|
||||
Stretnutie 3.10.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Naštudované LLM, transformers, anaconda, Okapi, open instruct, ollama.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Naštudovať a vyskúšať PEFT-QLORA.
|
||||
- Vyskúšajte si skript pre dotrénovanie Slovak Mistral.(poslal som cez Teams)
|
||||
- Oboznámte sa s Huggingface TRL.
|
||||
- Oboznámte sa s knižnicou "unsloth".
|
||||
- Oboznámte sa s https://github.com/hiyouga/LLaMA-Factory
|
||||
- Pracujte na teoretickej časti: opíšte základné pojmy, metódy a dátové množiny. Používajte google scholar a bibliografické odkazy.
|
||||
- Najprv pracujte s domácou GPU, ak nebude stačiť pracujte s Google Coolab, ak nebude stačiť požiadajte konzultanta.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Dotrénujte a vyhodnotte Slovak Mistral.
|
||||
|
||||
Stretnutie 26.2.
|
||||
|
||||
Úlohy:
|
||||
|
||||
55
pages/students/2023/maksym_zatirka/README.md
Normal file
55
pages/students/2023/maksym_zatirka/README.md
Normal file
@ -0,0 +1,55 @@
|
||||
---
|
||||
title: Maksym Zatirka
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [bp2026]
|
||||
tag: [nlp,graph,db]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
||||
|
||||
rok začiatku štúdia: 2023
|
||||
|
||||
študent KM
|
||||
|
||||
|
||||
# Bakalárska práca 2026
|
||||
|
||||
|
||||
Téma:
|
||||
|
||||
Grafová databáza pre podporu generovania slovenského jazyka
|
||||
|
||||
|
||||
Ciele:
|
||||
|
||||
Vytvorte databázu pre vyhľadávanie v rozsudkoch s využitím grafovej informácie.
|
||||
|
||||
Stretnutie 2.10.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Prejdite si tutoriál https://python.langchain.com/docs/tutorials/rag/
|
||||
- Prejdite si tutoriály https://neo4j.com/docs/getting-started/appendix/tutorials/tutorials-overview/
|
||||
- Zistite, ako vieme využiť grafy pri RAG - ako skombinovať langchain a neo4j
|
||||
- Pokračujte v štúdiu Python
|
||||
- Prečítajte si články https://arxiv.org/abs/2408.08921 a https://ieeexplore.ieee.org/abstract/document/10771030 a robte si poznámky.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Pripravte databázu znalosti zo súdnej domény pre zlepšenie vyhľadávania v rozsudkoch.
|
||||
|
||||
|
||||
Predbežné úlohy:
|
||||
|
||||
- Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
|
||||
- Poučte sa o strojovom účení. Dive into deep learning.
|
||||
- Zistite čo je to Retrieval Augmented Generation a napíšte si o tom poznámky
|
||||
- Pozrite si knižnicu [llamaindex](https://developers.llamaindex.ai/python/framework/).
|
||||
- Zistite čo je to [znalostný graf](https://en.wikipedia.org/wiki/Knowledge_graph)
|
||||
- Zistite ako funguje databáza Neo4J.
|
||||
- Zistite čo je to SparkQL.
|
||||
- Napíšte si poznámky z vecí ktoré ste sa naučili. Využívajte odborné články, ktoré nájdete na google scholar.
|
||||
|
||||
|
||||
|
||||
@ -22,7 +22,12 @@ Ciele:
|
||||
|
||||
Vytvorte agenta pre spracovanie slovenských právnych textov
|
||||
|
||||
Zvážiť zmenu domény na vzdelávanie.
|
||||
Predbežné zadanie:
|
||||
|
||||
1. Vypracujte prehľad jazykových modelov s podporou slovenčiny a s podporou volania nástrojov. Opíšte spôsob ich práce a spôsob ich trénovania s dôrazom na volanie nástrojov.
|
||||
2. Vyberte a opíšte vhodné verejné API pre prístup ku informáciám z právnej oblasti.
|
||||
3. Navrhnite a vypravujte inteligentého agenta, ktorý bude vedieť používať toto API s cieľom pomôcť pri práci s právnou agendou.
|
||||
4. Vytvorte webové demo pre interakciu s agentom.
|
||||
|
||||
Spolupráca:
|
||||
|
||||
@ -32,6 +37,28 @@ Spolupráca:
|
||||
- Martin Šarišský
|
||||
- Matej Ščišľak
|
||||
|
||||
Stretnutie 3.10.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Štúdium Python, Anaconda, langgraph
|
||||
- Základy LLM
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Oboznámte sa so základmi LLM. Ako pracujú najnovšie modely? Zistite čo je to LLM function calling. Použite google scholar a píšte si poznámky.
|
||||
- Vyskúšajte si ollama s novými modelmi. Napr. gpt-oss.
|
||||
- Vyskúšajte si knižnicu openai-agents-sdk a prejdite si tutoriály.
|
||||
- Treba vybrať knižnicu a model pre prácu s agentami.
|
||||
- Pozrite si https://obcan.justice.sk/pilot/api/ress-isu-service/swagger-ui/index.html a https://www.justice.gov.sk/sluzby/register-partnerov-verejneho-sektora/open-data/ Podľa týchto odkazov si vyskúšajte REST rozhranie pre prácu s verejnými súdnymi API. Napr. cez curl, alebo Python requests.
|
||||
- Zistitie, ako pracuje agent ktorý vie volať REST API .
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Vytvorte agenta, ktorý bude vedieť pracovať s verejne dostupným API a pomocou neho bude vedieť pomáhať právnikom a sudcom.
|
||||
- Navrhnite WEB demo ku takémuto agentovi.
|
||||
|
||||
|
||||
Stretnutie 10.4.
|
||||
|
||||
Úlohy:
|
||||
|
||||
@ -30,9 +30,29 @@ Predbežné zadanie:
|
||||
Úlohy:
|
||||
|
||||
- Zistite, čo robí špeciálny pedagóg.
|
||||
- Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenyt
|
||||
- Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenty
|
||||
- Vytvorte inteligentného agenta, ktorý by na základe dokumentov navrhol najlepšie výchovné opatrenia.
|
||||
|
||||
Stretnutie 3.10.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Oboznámenie sa s prácou špeciálneho pedagóga.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračujte v štúdiu podporných opatrení. Môžete nájsť podobné stránky aj v ukrajinčine. Čo robí špeciálny pedagóg?Ako vieme pomôcť pri ich práci? Napíšte si poznámky.
|
||||
- Pripravte si množinu dát - získajte dokumenty s podpornými opatreniami https://podporneopatrenia.minedu.sk/ a indexujte ju do databázy pre vyhľadávanie. Použite langchain. Na získanie môžete použiť wget. Na prípravu dát môžete použiť "https://github.com/docling-project/docling".
|
||||
- Zistite čo je to RAG. Hľadajte "Retrieval Augmented Generation". Napíšte si poznámky. Používajte google scholar.
|
||||
- Prejdite si tutoriál https://python.langchain.com/docs/tutorials/rag/
|
||||
- Implementujte RAG systém pre prácu so získanými dátami.
|
||||
- Oboznámte sa s knižnicou Openai Agents SDK.
|
||||
- Kódy na prípravu dát a kódy agenta dávajte na katedrový GIT - repozitár bp2026:
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Vytvorte agenta pre pomoc špeciálnemu pedagógovi. Agent vie prečítať zadané dokumenty a na základe otázok zvoliť najlepšie opatrenia.
|
||||
|
||||
# Vedecký projekt 2025
|
||||
|
||||
Veľký jazykový model ako inteligentný agent
|
||||
|
||||
@ -32,8 +32,28 @@ Spolupráca:
|
||||
- Martin Šarišský
|
||||
- Matej Ščišľak
|
||||
|
||||
Stretnutie 9.10.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Špedičná firma by využila colné pravidlá z EU do EU a CMR dohovor (dohovor o medzinárodnej zmluve o cestnej doprave). CMR dohovor - nákladný list, je formulár ktorý vyplní šofér alebo príjemca a je dokladom o vykonanej preprave. Niečo ako sprievodný list.
|
||||
- Aké colné pravidlá platia pre prepravu konkrétneho druhu tovaru.
|
||||
- Otázky sa týkajú colných vyhlásení.
|
||||
|
||||
Otvorené otázky:
|
||||
|
||||
- Pri akom konkrétnom procese vie pomôcť chatbot? Kto a ako sa tento proces vykonáva doteraz?
|
||||
- Aké sú technické požiadavky na nasadenie? Má firma HW s GPU? Je možné dáta poslať mimo firmy?
|
||||
- Ktoré konkrétne dáta vie agent využiť? Ktorá legislatíva (zákony, vyhlášky, zmluvy) je relevantná.
|
||||
- Je možná formálna spolupráca "https://uvptechnicom.sk/spolupraca/#formy" alebo https://edihcassovium.sk/ ?
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Zistite, ako pracuje RAG systém. Vypracujte tutoriál https://python.langchain.com/docs/tutorials/rag/
|
||||
- Pozrite sa na gogole scholar a prečítajte si odborné články na tému "retrieval augmented generation" . Napíšte si poznámky.
|
||||
- Prečítajte si článok https://arxiv.org/abs/2401.03428 a napíšte si poznámky.
|
||||
- Navrhnite modelový príklad použitia intelignetného agenta v špedičnej firme.
|
||||
- Vyskúšajte https://openai.github.io/openai-agents-python/ a vytvorte prvú verziu agenta.
|
||||
|
||||
Stretnutie 13.5.2025
|
||||
|
||||
|
||||
@ -22,6 +22,35 @@ Ciele:
|
||||
|
||||
Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov.
|
||||
|
||||
Stretnutie 6.10.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Preštudované deep learning
|
||||
- Framework HF Transformers
|
||||
- Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky.
|
||||
- Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov.
|
||||
- Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk.
|
||||
- Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/
|
||||
- Pripravte si trénovacie a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy.
|
||||
- Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia).
|
||||
- "Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU.
|
||||
- Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma, Slovak-t5-base
|
||||
- skripty dajte na kemt git.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Vyhodnotenie presnosti pomocou LLM
|
||||
- Lepšie predspracovanie textu
|
||||
- Generovanie rozhodnutia z odôvodnenia.
|
||||
- sumarizácia zero shot, napr. pomocou gpt-oss
|
||||
|
||||
|
||||
|
||||
Stretnutie 3.4.
|
||||
|
||||
Úlohy:
|
||||
|
||||
@ -21,7 +21,31 @@ Predbežné zadanie:
|
||||
|
||||
1. Vypracujte prehľad webových korpusov a metód ich tvorby.
|
||||
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
||||
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
|
||||
3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
|
||||
|
||||
Stretnutie 9.10.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Pridané skripty pre pridanie hplt2
|
||||
- Prečítané Web Mining and Text mining - vypracované poznámky.
|
||||
- Preštudované Docker.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pozrite sa na HPLT3.
|
||||
- Pozrite sa na https://github.com/lc/gau
|
||||
- Zistite na čo je súbor robots.txt.
|
||||
- Zistite, ako nasadiť aplikáciu pomocou Docker Compose.
|
||||
- Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...)
|
||||
- Mal by mať časť, ktorá sa zameriava na určité stránky (média, noviny, blogy, doménové stránky ) a časť ktorá zísava texty zo "statických" stránok.
|
||||
- Mal by byť schopný sa vyhnúť "nekvalitným" stránkam - eshopom, "nevhodnému" obsahu. Mal by vedieť ohodnotiť "kvalitu" získaného textu.
|
||||
- Crawler by mal mať webové rozhranie pre prehľad o jeho činnosti a výsledkoch.
|
||||
- Kódy posielajte na katedrový git.
|
||||
- Píšte si poznámky. Vypracujte prehľad existujúcich crawlerov a odborných článkov o text mining. Použite google scholar.
|
||||
|
||||
Zásobník úloh
|
||||
|
||||
|
||||
Stretnutie 20.8.2025
|
||||
|
||||
|
||||
52
pages/topics/legal/README.md
Normal file
52
pages/topics/legal/README.md
Normal file
@ -0,0 +1,52 @@
|
||||
---
|
||||
title: Legal Data Processing
|
||||
category: [project]
|
||||
tag: [legal,nlp]
|
||||
---
|
||||
|
||||
# Legal Data Processing Scientific Project
|
||||
|
||||
Goal:
|
||||
|
||||
- Help the slovak judges
|
||||
|
||||
Possible applications:
|
||||
|
||||
- agent retrieval agent to search in laws and processdings.
|
||||
- question answering system
|
||||
|
||||
Plan:
|
||||
|
||||
- Develop a demo agent for legal and proceeding retrieval anad answering.
|
||||
- Develop a summarization system - retrieve and highlight important parts of document. Generate a summary.
|
||||
|
||||
|
||||
People:
|
||||
|
||||
- Daniel Hládek
|
||||
- [Martin Šarišský](/students/2021/martin_sarissky) - agentový systém
|
||||
- [Matej Ščišľak](/students/2021/matej_scislak) - sumarizácia, dotrénovanie LLM
|
||||
- [Maxim Zatyrka](/students/2023/maxim_zatyrka) - využitie grafovej informácie ( Tezaurus)
|
||||
- [Oleksandr Dorybohov](/students/2023/oleksandr_dorybohov) - agent pre volanie REST
|
||||
- [Simona Bobrovčanová](/students/2023/simona_bobrovcanova) - sumarizácia
|
||||
|
||||
Tasks:
|
||||
|
||||
- Create index of Slovak laws
|
||||
- Create index of the Slovak Court proceedings.
|
||||
- Fine-tune Slovak embedding model for the legal domain.
|
||||
- Evaluate LLMS for the legal domain.
|
||||
- Design legal data pre-processing (anonymization, de-anonymization)
|
||||
- Create a knowledge graph (tezaurus)
|
||||
- Create legal data summarization (extractive and abstractive) system.
|
||||
- Create agent that utilizes OpenAPI
|
||||
|
||||
Links:
|
||||
|
||||
- OpenAPI pre prístup k údajom o súdoch a o rozsudkoch. https://obcan.justice.sk/pilot/api/ress-isu-service/swagger-ui/index.html
|
||||
- https://www.justice.gov.sk/sluzby/register-partnerov-verejneho-sektora/open-data/
|
||||
- https://rpvs.gov.sk/opendatav2/swagger/index.html
|
||||
- Databáza zákonov a register opatrení https://static.slov-lex.sk/
|
||||
- Tezaurus slovenského práva https://www.slov-lex.sk/tezaury/terminy - aj vzťahy ku právnym predpisom
|
||||
- Znalostný graf údajov verejnej správy https://znalosti.gov.sk/
|
||||
|
||||
Loading…
Reference in New Issue
Block a user