diff --git a/pages/home/default.md b/pages/home/default.md index 771cb4f37..356f67f2d 100644 --- a/pages/home/default.md +++ b/pages/home/default.md @@ -10,7 +10,7 @@ taxonomy: # Záverečné práce na KEMT -Wiki stánka pre spoluprácu na záverečných prácach. +Wiki stránka pre spoluprácu na záverečných prácach. - [Často kladené otázky](/topics/faq) - [Ako napíšem záverečnú prácu](/topics/akopisat) @@ -22,6 +22,9 @@ Wiki stánka pre spoluprácu na záverečných prácach. - [Bakalárske práce 2026](https://zp.kemt.fei.tuke.sk/taxonomy?name=category&val=bp2026) +## Bežiace projekty + +- [Spracovanie súdnych dát](/topics/legal) ## Ukončené projekty diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index 82a68b430..5e87ea516 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -18,10 +18,52 @@ Vyhodnotenie jazykových modelov Možné ciele: -- Zistiť, či sú súčasné jazyové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka? +- Zistiť, či sú súčasné jazykové modely bezpečné. Aké problémy obsahujú? Menia bezpečnostné vlastnosti na základe jazyka? - Vyhodnotiť viacero jazykových modelov vo viacerých jazykoch. - Navrhnúť zlepšenia na zvýšenie bezpečnosti. +Stretnutie 10.10.2025: + +Stav: + +Preštudované: + +- https://github.com/EleutherAI/lm-evaluation-harness?utm_source=chatgpt.com +- https://github.com/confident-ai/deepeval?utm_source=chatgpt.com +- https://github.com/open-compass/opencompass?utm_source=chatgpt.com +- https://github.com/explodinggradients/ragas?utm_source=chatgpt.com +- https://github.com/braintrustdata/autoevals?utm_source=chatgpt.com + +Úlohy: + +- pozrite si databázy PKU-Alignment/PKU-SafeRLHF alebo aurora-m/adversarial-prompts . Vyhľadajte iné databázy. +- Vyskúšajte LLM s týmito databázami. Ako sa bydú správať? +- Oboznámte sa s pojmom LLM alignment. Ako upravíme správanie jazykového modelu pomocou reinformcement learning? +- Používajte google scholar a píšte si poznámky. +- Pokračujte v otvorených úlohách - DPO. + +Zásobník úloh: + +- Vybrať metódy, vybrať databázu a vybrať model. Databázu vieme aj generovať - augmentovať. Alebo ju vieme ručne upraviť. +- Niektorú databázu viem aj preložiť. Prístup vieme použiť aj na nový jazykový model slovak-t5-large. +- Ako sa správajú modely v rôznych jazykoch? +- vyhodnotiť model z hľadiska bezpečnosti. +- upraviť správanie modelu tak aby sa zlepšilo. + +Stretnutie 2.10. : + +Úlohy: + +- Pokračujte v otvorených úlohách. Kľúčové slovíčka: Python, TRL , LLM. +- Zistite čo je to Reinforcement Learning, RLHF, DPO, PEFT. +- Vyskúšajte si voľne dostupné LLM pomocou ollama. gpt-oss, gemma, qwen. +- Pozrite si databázy "nebezpečných promptov". Prečítajte si články. Pozrite si, aké články ich citujú. Použite google scholar. + +Zásobník úloh: + +- Zopakujte a vylepšite experimenty vo vybranom článku. +- Finalizovať zadanie diplomovej práce. + Stretnutie 11.6. : - Štúdium a vyskúšanie Python, Anaconda Transformers diff --git a/pages/students/2021/martin_sarissky/README.md b/pages/students/2021/martin_sarissky/README.md index 5c187164e..00a9b8687 100644 --- a/pages/students/2021/martin_sarissky/README.md +++ b/pages/students/2021/martin_sarissky/README.md @@ -9,21 +9,37 @@ taxonomy: rok začiatku štúdia: 2021 -# Diplomová praca 2026 - +# Diplomová práca 2026 Ciele: - Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac -, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov. +, odpovedať na otázky a sumarizovať dokumenty. Je možné, že riešenie úlohy si vyžiada viac krokov. - Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému. - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. -Príprava: + +Stretnutie 10.10.2025 + +Stav: + +- Štúdium podľa odporúčania. Poznámky z oblasti znalostné grafy, langchain, SBERT, function calling - agent tools. LLM. +- Máme index zákonov. + +Úlohy: + +- Vytvorte systém pre generovanie odpovede na základe získaných dokumentov. +- Navrhnite agenta pre získanie relevantných informácií ku dotazu a generovanie odpovede. +Agent bude vedieť využívať viaceré nástroje, napr. verejné REST API alebo vyhľadávanie na internete. +- Ako modelový príklad použite otázky týkajúce sa colných konaní. Nájdite si príklady otázok z tejto oblasi. +- Oboznámte a vyskúšajte OpenAI Agents SDK alebo nový langchain alebo CrewAI. +- Do práce píšte o inteligentných agentoch, REACT, LLM, function calling. + +Prázdninová Príprava: - Zopakujte si Python. -- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. -- Oboznámte sa s framewworkom LangChain. +- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si ollama. +- Oboznámte sa s frameworkom LangChain. - pozrite si LangChain Transformers Agents. - Ako funguje FunctionCalling - AgentTools?. - Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar. diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index b75cbec1e..bcae2a7c5 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -21,6 +21,34 @@ Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu. 2. Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana. 3. Z týchto textov chceme natrénovať alebo dotrénovať jazykový model. +Stretnutie 9.10.2025 + +Stav: + +- HF transformers tutoriály na tokenizáciu. +- spísané poznámky - LLM a tokenizácia (2 PDF z google scholar) +- stiahnuté nejaké články v wikipédie a vyskúšaný klasifikačný skript. +- vytvorený prístup na novotny@titan.kemt.fei.tuke.sk . Používajte adresár /mnt/sharedhome/novotny + +Úlohy: + +- Oboznámte sa so skriptami a dátami v /mnt/sharedhome/hladek/bert-train corpus3, slavic1 +- Vytvorte skript pre rozpoznávanie nenávisti v texte. Cieľom je vytvoriť korpus bez "nenávistného" textu. Zistite, koľko nenávistných textov je vo webových korpusoch. +- Ak je to potrebné, natrénujte model pre ropoznávanie slovenského nenávistného textu. Použite skript pre klasifikáciu a dáta z https://huggingface.co/TUKE-KEMT - senti-sk, toxic-sk a `hate_speech_slovak`. +- Píšte si poznámku. + +Zásobník úloh: + +- Oboznámte sa s algoritmami v https://www.nltk.org/book/ch06.html +- Zistite, či sa nená nenávisť klasifikovať aj nejakou jednoduchšou metódou (bayes, ME) a porovnajte. +- Vytvorte model pre klasifikáciu druhu alebo témy textu. + +Úlohy: + +- Pošlite mi poznámky z DP v 6. týždni. +- Kódy z DP dávajte na katedrový GIT. +- Naučte sa pracovať s tmux alebo screen + Stretnutie 4.6.2025 diff --git a/pages/students/2021/matej_scislak/README.md b/pages/students/2021/matej_scislak/README.md index 1e753e601..4b613b36a 100644 --- a/pages/students/2021/matej_scislak/README.md +++ b/pages/students/2021/matej_scislak/README.md @@ -11,9 +11,27 @@ rok začiatku štúdia: 2021 Ciele: -- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. +- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov pomocou znalostných grafov -Príprava: +Stretnutie 10.10.2025 + +Stav: + +- Rozbehaný agent na báze ollama. +- naštudované RAG, function calling, retrieval, evaluation. + +Úlohy: + +- zistite, čo je to znalostný graf. Študujte "graph retrieval augmented generation" na google scholar. +- Oboznámte sa s databázou Neo4J - zistite ako ju využiť spolu s langchain. +- Zistite, ako vieme vylepšiť RAG pomocou znalostného grafu. +- Oboznámte sa s tezaurom slovenského práva. Konvertujte PDF s tezaurom do JSON. Použite docling alebo ollama s gpt-oss. +a skúste to zaindexovať (do Neo4J). +- Navrhnite prompt ktorý konvertuje otázku na Neo4J dopyt pre získanie relevantných dokumentov. +- skripty dávajte na GIT. + + +Letná Príprava: - Zopakujte si Python. - Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. diff --git a/pages/students/2022/samuel_vasil/README.md b/pages/students/2022/samuel_vasil/README.md new file mode 100644 index 000000000..dc7afc294 --- /dev/null +++ b/pages/students/2022/samuel_vasil/README.md @@ -0,0 +1,28 @@ +--- +title: Samuel Vasiľ +published: true +taxonomy: + category: [bp2026] + tag: [llm,nlp] + author: Daniel Hladek +--- + + +rok začiatku štúdia: 2022 + + +## Bakalárska práca 2026 + +konzultant Matúš Čavojský + +Predbežný názov: + +Orchestrácia veľkých jazykových modelov pomocou model context protokolu s využitím OpenWebUI + +Úlohy: + +- Vypracovať prehľad jazykových modelov s podporou slovenčiny pre úlohy generovania prirodzeného jazyka, generovania proprogramov a vyhľadávania. +- Nasadiť OpenWebUI pomocou Docker Compose +- Vybrať viacero vhodných modelov a sprístupniť ich pomoocou Webového rozhrania a REST API +- Pridať podporu RAG, vyhľadávania na webe, volania funkcií a nástrojov. + diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index f96cd51ca..dcdd7581a 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -9,6 +9,30 @@ taxonomy: rok začiatku štúdia: 2022 +# Diplomová práca 2027 + +Nápady na tému: + +- Augmentácia dát - generovanie umelých trénovacích množín. +- Vyskúšať nové LLM na generovanie trénovacích dát. +- Použiť existujúce dáta - zlepšiť ich pomocou LLM alebo generovať podobné dáta. +- Generovať a overovať dáta pre vyhodnotenie modelov. +- Vyvmyslieť metódy pre vyhodnotenie "kvality dát" - ich "užitočnosť" pre trénovanie. +- Preskúmať metídy "učiteľ - žiak." Ako môže jeden model pomôcť pri trénovaní iného modelu. +- Vytvoriť novú doménovo orientovanú QA množinu. Vytvoriť Instruct množinu. +- Vytvoriť slovenský doménovo orientovaný model. + +Stretnutie 3.10. + +Úlohy: + +- Oboznámiť sa s novými metódami generovania trénovacích množín. Prečítejte si nové články na google scholar a urobte si poznámky. +- Kľúčové slovíčka: data augmentation, distillation, question generation, +- Pozrite si https://github.com/nlp-uoregon/Okapi +- Vyskúšať nové LLM pre generovanie, napr. pomocou ollama. gpt-oss, +- Pozrite si https://huggingface.co/docs/trl/en/index. Oboznámte sa s metódami GPO a SFT. Ako dokáže pomôcť existujúci model pri dotrénovaní nového modelu. + + # Bakalárska práca 2025 Automatické generovanie otázok zo zadaného textu diff --git a/pages/students/2023/denis_le_thanh/README.md b/pages/students/2023/denis_le_thanh/README.md index ceb7f92b1..224e8555c 100644 --- a/pages/students/2023/denis_le_thanh/README.md +++ b/pages/students/2023/denis_le_thanh/README.md @@ -28,6 +28,26 @@ Ciele: - Skúsiť dotrénovať slovenský generatívny model (slovak-mistral-7b) pre inštrukcie. +Stretnutie 3.10.2025 + +Stav: + +- Naštudované LLM, transformers, anaconda, Okapi, open instruct, ollama. + +Úlohy: + +- Naštudovať a vyskúšať PEFT-QLORA. +- Vyskúšajte si skript pre dotrénovanie Slovak Mistral.(poslal som cez Teams) +- Oboznámte sa s Huggingface TRL. +- Oboznámte sa s knižnicou "unsloth". +- Oboznámte sa s https://github.com/hiyouga/LLaMA-Factory +- Pracujte na teoretickej časti: opíšte základné pojmy, metódy a dátové množiny. Používajte google scholar a bibliografické odkazy. +- Najprv pracujte s domácou GPU, ak nebude stačiť pracujte s Google Coolab, ak nebude stačiť požiadajte konzultanta. + +Zásobník úloh: + +- Dotrénujte a vyhodnotte Slovak Mistral. + Stretnutie 26.2. Úlohy: diff --git a/pages/students/2023/maksym_zatirka/README.md b/pages/students/2023/maksym_zatirka/README.md new file mode 100644 index 000000000..b4e6c4c18 --- /dev/null +++ b/pages/students/2023/maksym_zatirka/README.md @@ -0,0 +1,55 @@ +--- +title: Maksym Zatirka +published: true +taxonomy: + category: [bp2026] + tag: [nlp,graph,db] + author: Daniel Hladek +--- + + +rok začiatku štúdia: 2023 + +študent KM + + +# Bakalárska práca 2026 + + +Téma: + +Grafová databáza pre podporu generovania slovenského jazyka + + +Ciele: + +Vytvorte databázu pre vyhľadávanie v rozsudkoch s využitím grafovej informácie. + +Stretnutie 2.10. + +Úlohy: + +- Prejdite si tutoriál https://python.langchain.com/docs/tutorials/rag/ +- Prejdite si tutoriály https://neo4j.com/docs/getting-started/appendix/tutorials/tutorials-overview/ +- Zistite, ako vieme využiť grafy pri RAG - ako skombinovať langchain a neo4j +- Pokračujte v štúdiu Python +- Prečítajte si články https://arxiv.org/abs/2408.08921 a https://ieeexplore.ieee.org/abstract/document/10771030 a robte si poznámky. + +Zásobník úloh: + +- Pripravte databázu znalosti zo súdnej domény pre zlepšenie vyhľadávania v rozsudkoch. + + +Predbežné úlohy: + +- Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda. +- Poučte sa o strojovom účení. Dive into deep learning. +- Zistite čo je to Retrieval Augmented Generation a napíšte si o tom poznámky +- Pozrite si knižnicu [llamaindex](https://developers.llamaindex.ai/python/framework/). +- Zistite čo je to [znalostný graf](https://en.wikipedia.org/wiki/Knowledge_graph) +- Zistite ako funguje databáza Neo4J. +- Zistite čo je to SparkQL. +- Napíšte si poznámky z vecí ktoré ste sa naučili. Využívajte odborné články, ktoré nájdete na google scholar. + + + diff --git a/pages/students/2023/oleksandr_dorybohov/README.md b/pages/students/2023/oleksandr_dorybohov/README.md index 36b99cb8e..c1f9a0b2a 100644 --- a/pages/students/2023/oleksandr_dorybohov/README.md +++ b/pages/students/2023/oleksandr_dorybohov/README.md @@ -22,7 +22,12 @@ Ciele: Vytvorte agenta pre spracovanie slovenských právnych textov -Zvážiť zmenu domény na vzdelávanie. +Predbežné zadanie: + +1. Vypracujte prehľad jazykových modelov s podporou slovenčiny a s podporou volania nástrojov. Opíšte spôsob ich práce a spôsob ich trénovania s dôrazom na volanie nástrojov. +2. Vyberte a opíšte vhodné verejné API pre prístup ku informáciám z právnej oblasti. +3. Navrhnite a vypravujte inteligentého agenta, ktorý bude vedieť používať toto API s cieľom pomôcť pri práci s právnou agendou. +4. Vytvorte webové demo pre interakciu s agentom. Spolupráca: @@ -32,6 +37,28 @@ Spolupráca: - Martin Šarišský - Matej Ščišľak +Stretnutie 3.10.2025 + +Stav: + +- Štúdium Python, Anaconda, langgraph +- Základy LLM + +Úlohy: + +- Oboznámte sa so základmi LLM. Ako pracujú najnovšie modely? Zistite čo je to LLM function calling. Použite google scholar a píšte si poznámky. +- Vyskúšajte si ollama s novými modelmi. Napr. gpt-oss. +- Vyskúšajte si knižnicu openai-agents-sdk a prejdite si tutoriály. +- Treba vybrať knižnicu a model pre prácu s agentami. +- Pozrite si https://obcan.justice.sk/pilot/api/ress-isu-service/swagger-ui/index.html a https://www.justice.gov.sk/sluzby/register-partnerov-verejneho-sektora/open-data/ Podľa týchto odkazov si vyskúšajte REST rozhranie pre prácu s verejnými súdnymi API. Napr. cez curl, alebo Python requests. +- Zistitie, ako pracuje agent ktorý vie volať REST API . + +Zásobník úloh: + +- Vytvorte agenta, ktorý bude vedieť pracovať s verejne dostupným API a pomocou neho bude vedieť pomáhať právnikom a sudcom. +- Navrhnite WEB demo ku takémuto agentovi. + + Stretnutie 10.4. Úlohy: diff --git a/pages/students/2023/rostyslav_rodzhuk/README.md b/pages/students/2023/rostyslav_rodzhuk/README.md index 285d512d6..0128a01b4 100644 --- a/pages/students/2023/rostyslav_rodzhuk/README.md +++ b/pages/students/2023/rostyslav_rodzhuk/README.md @@ -30,9 +30,29 @@ Predbežné zadanie: Úlohy: - Zistite, čo robí špeciálny pedagóg. -- Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenyt +- Pozrite si opatrenia na https://podporneopatrenia.minedu.sk/katalog-podpornych-opatreni/ a vyberte relevantné dokumenty - Vytvorte inteligentného agenta, ktorý by na základe dokumentov navrhol najlepšie výchovné opatrenia. +Stretnutie 3.10.2025 + +Stav: + +- Oboznámenie sa s prácou špeciálneho pedagóga. + +Úlohy: + +- Pokračujte v štúdiu podporných opatrení. Môžete nájsť podobné stránky aj v ukrajinčine. Čo robí špeciálny pedagóg?Ako vieme pomôcť pri ich práci? Napíšte si poznámky. +- Pripravte si množinu dát - získajte dokumenty s podpornými opatreniami https://podporneopatrenia.minedu.sk/ a indexujte ju do databázy pre vyhľadávanie. Použite langchain. Na získanie môžete použiť wget. Na prípravu dát môžete použiť "https://github.com/docling-project/docling". +- Zistite čo je to RAG. Hľadajte "Retrieval Augmented Generation". Napíšte si poznámky. Používajte google scholar. +- Prejdite si tutoriál https://python.langchain.com/docs/tutorials/rag/ +- Implementujte RAG systém pre prácu so získanými dátami. +- Oboznámte sa s knižnicou Openai Agents SDK. +- Kódy na prípravu dát a kódy agenta dávajte na katedrový GIT - repozitár bp2026: + +Zásobník úloh: + +- Vytvorte agenta pre pomoc špeciálnemu pedagógovi. Agent vie prečítať zadané dokumenty a na základe otázok zvoliť najlepšie opatrenia. + # Vedecký projekt 2025 Veľký jazykový model ako inteligentný agent diff --git a/pages/students/2023/samuel_dzurina/README.md b/pages/students/2023/samuel_dzurina/README.md index 0404e49a9..8b8810d89 100644 --- a/pages/students/2023/samuel_dzurina/README.md +++ b/pages/students/2023/samuel_dzurina/README.md @@ -32,8 +32,28 @@ Spolupráca: - Martin Šarišský - Matej Ščišľak +Stretnutie 9.10.2025 +Stav: +- Špedičná firma by využila colné pravidlá z EU do EU a CMR dohovor (dohovor o medzinárodnej zmluve o cestnej doprave). CMR dohovor - nákladný list, je formulár ktorý vyplní šofér alebo príjemca a je dokladom o vykonanej preprave. Niečo ako sprievodný list. +- Aké colné pravidlá platia pre prepravu konkrétneho druhu tovaru. +- Otázky sa týkajú colných vyhlásení. + +Otvorené otázky: + +- Pri akom konkrétnom procese vie pomôcť chatbot? Kto a ako sa tento proces vykonáva doteraz? +- Aké sú technické požiadavky na nasadenie? Má firma HW s GPU? Je možné dáta poslať mimo firmy? +- Ktoré konkrétne dáta vie agent využiť? Ktorá legislatíva (zákony, vyhlášky, zmluvy) je relevantná. +- Je možná formálna spolupráca "https://uvptechnicom.sk/spolupraca/#formy" alebo https://edihcassovium.sk/ ? + +Úlohy: + +- Zistite, ako pracuje RAG systém. Vypracujte tutoriál https://python.langchain.com/docs/tutorials/rag/ +- Pozrite sa na gogole scholar a prečítajte si odborné články na tému "retrieval augmented generation" . Napíšte si poznámky. +- Prečítajte si článok https://arxiv.org/abs/2401.03428 a napíšte si poznámky. +- Navrhnite modelový príklad použitia intelignetného agenta v špedičnej firme. +- Vyskúšajte https://openai.github.io/openai-agents-python/ a vytvorte prvú verziu agenta. Stretnutie 13.5.2025 diff --git a/pages/students/2023/simona_bobrovcanova/README.md b/pages/students/2023/simona_bobrovcanova/README.md index de2f08d55..6cd7a5430 100644 --- a/pages/students/2023/simona_bobrovcanova/README.md +++ b/pages/students/2023/simona_bobrovcanova/README.md @@ -22,6 +22,35 @@ Ciele: Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov. +Stretnutie 6.10.2025 + +Stav: + +- Preštudované deep learning +- Framework HF Transformers +- Trénovanie sumarizácie pomocou LORA v Anaconda, 4 bit kvanitizácia - llama, mt5-base, mt5 na 6GB RAM + +Úlohy: + +- Pozrite sa na google scholar, prečítajte si najnovšie články o sumarizácii súdnych textov a urobte si poznámky. +- Napíšte o procese dotrénovania jazykového modelu - supervised finetuning, PEFT-LORA podľa vedeckých článkov. +- Vytvoreny pristup bobrovcanova@titan.kemt.fei.tuke.sk. +- Dáta sú v /mnt/sharedhome/hladek/corpora/prokuraturadb/ +- Pripravte si trénovacie a testovacie dáta, zatiaľ bez deanonymizácie a bez prípravy. +- Natrénujte a vyhodnotte model pre generovanie poučenia na (základe rozhodnutie a-alebo odôvodnenia). +- "Objektívne" vyhodnotenie je pomocou metriky ROUGE alebo BLEU. +- Vyskúšajte modely: slovak-mistral 7B., Qwen3 , Gemma, Slovak-t5-base +- skripty dajte na kemt git. + +Zásobník úloh: + +- Vyhodnotenie presnosti pomocou LLM +- Lepšie predspracovanie textu +- Generovanie rozhodnutia z odôvodnenia. +- sumarizácia zero shot, napr. pomocou gpt-oss + + + Stretnutie 3.4. Úlohy: diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index 2405ec6f9..ec1d52e01 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -21,7 +21,31 @@ Predbežné zadanie: 1. Vypracujte prehľad webových korpusov a metód ich tvorby. 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. -3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. +3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu. + +Stretnutie 9.10.2025 + +Stav: + +- Pridané skripty pre pridanie hplt2 +- Prečítané Web Mining and Text mining - vypracované poznámky. +- Preštudované Docker. + +Úlohy: + +- Pozrite sa na HPLT3. +- Pozrite sa na https://github.com/lc/gau +- Zistite na čo je súbor robots.txt. +- Zistite, ako nasadiť aplikáciu pomocou Docker Compose. +- Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...) +- Mal by mať časť, ktorá sa zameriava na určité stránky (média, noviny, blogy, doménové stránky ) a časť ktorá zísava texty zo "statických" stránok. +- Mal by byť schopný sa vyhnúť "nekvalitným" stránkam - eshopom, "nevhodnému" obsahu. Mal by vedieť ohodnotiť "kvalitu" získaného textu. +- Crawler by mal mať webové rozhranie pre prehľad o jeho činnosti a výsledkoch. +- Kódy posielajte na katedrový git. +- Píšte si poznámky. Vypracujte prehľad existujúcich crawlerov a odborných článkov o text mining. Použite google scholar. + +Zásobník úloh + Stretnutie 20.8.2025 diff --git a/pages/topics/legal/README.md b/pages/topics/legal/README.md new file mode 100644 index 000000000..c6b2ce25a --- /dev/null +++ b/pages/topics/legal/README.md @@ -0,0 +1,52 @@ +--- +title: Legal Data Processing +category: [project] +tag: [legal,nlp] +--- + +# Legal Data Processing Scientific Project + +Goal: + +- Help the slovak judges + +Possible applications: + +- agent retrieval agent to search in laws and processdings. +- question answering system + +Plan: + +- Develop a demo agent for legal and proceeding retrieval anad answering. +- Develop a summarization system - retrieve and highlight important parts of document. Generate a summary. + + +People: + +- Daniel Hládek +- [Martin Šarišský](/students/2021/martin_sarissky) - agentový systém +- [Matej Ščišľak](/students/2021/matej_scislak) - sumarizácia, dotrénovanie LLM +- [Maxim Zatyrka](/students/2023/maxim_zatyrka) - využitie grafovej informácie ( Tezaurus) +- [Oleksandr Dorybohov](/students/2023/oleksandr_dorybohov) - agent pre volanie REST +- [Simona Bobrovčanová](/students/2023/simona_bobrovcanova) - sumarizácia + +Tasks: + +- Create index of Slovak laws +- Create index of the Slovak Court proceedings. +- Fine-tune Slovak embedding model for the legal domain. +- Evaluate LLMS for the legal domain. +- Design legal data pre-processing (anonymization, de-anonymization) +- Create a knowledge graph (tezaurus) +- Create legal data summarization (extractive and abstractive) system. +- Create agent that utilizes OpenAPI + +Links: + +- OpenAPI pre prístup k údajom o súdoch a o rozsudkoch. https://obcan.justice.sk/pilot/api/ress-isu-service/swagger-ui/index.html +- https://www.justice.gov.sk/sluzby/register-partnerov-verejneho-sektora/open-data/ +- https://rpvs.gov.sk/opendatav2/swagger/index.html +- Databáza zákonov a register opatrení https://static.slov-lex.sk/ +- Tezaurus slovenského práva https://www.slov-lex.sk/tezaury/terminy - aj vzťahy ku právnym predpisom +- Znalostný graf údajov verejnej správy https://znalosti.gov.sk/ +