From e12e13914338174a24fbba4f1c50133f1cb09a2a Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 7 Nov 2024 09:49:10 +0000 Subject: [PATCH 01/51] Update pages/students/2019/filip_tomas/README.md --- pages/students/2019/filip_tomas/README.md | 9 +++++++++ 1 file changed, 9 insertions(+) diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index d13de8a56..1728300a5 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -28,6 +28,15 @@ Ciel: Spolupráca Michal Stromko, Kristián Sopkovič. +Stretnutie 7.11.2024 + +Stav: + +- Riešenie problémov súvisiacich s PersistentVolume +- Práca na texte + + + Stretnutie 15.10.2024 Stav: From fc24d25d0325afd3ca1c5a76a51d6595fcc226ee Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 8 Nov 2024 08:14:29 +0000 Subject: [PATCH 02/51] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 11 ++++++++++- 1 file changed, 10 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index f66ec0ef0..6f55ff466 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -29,13 +29,22 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation +8.11.2024 + +Stav: + +- Modifikovaný frontend (Tailwind) +- Vytvorený Docker Images, Elasticsearch databáza aj index. +- Je aj skript na indexovanie. +- Vyskúšaný Mistral Small a Mistral Large cez API + 17.10.20204 Stav: - Funguje web rozhranie aj vyhľadávanie. - Kódy sú na gite. Využíva sa Flask, Mistral API pre Mistral-Small (nebeží lokálne). Na vektory MiniLM2 -- Napísané poznámky o praktickej časti. +- Napísané poznámky o praktickej časti. Úlohy From ca13fbd359652e3ea9d425abe0a56da16a56de62 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 8 Nov 2024 08:17:46 +0000 Subject: [PATCH 03/51] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 9 ++++++++- 1 file changed, 8 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 6f55ff466..8ad2da8ae 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -36,7 +36,14 @@ Stav: - Modifikovaný frontend (Tailwind) - Vytvorený Docker Images, Elasticsearch databáza aj index. - Je aj skript na indexovanie. -- Vyskúšaný Mistral Small a Mistral Large cez API +- Vyskúšaný Mistral Small a Mistral Large cez API- + + +Úlohy: + +- Pracujte na texte, pošlite mi draft. +- Pripojte sa na server quadro.kemt.fei.tuke.sk (z tuke siete). Použite prostredie Anaconda. +- Na inferenciu (beh modelu) vyskúšajte vllm. 17.10.20204 From 38c65bb73515b0730d2254de18bba0e1f25d8b66 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 8 Nov 2024 08:28:15 +0000 Subject: [PATCH 04/51] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 8ad2da8ae..8096afa3c 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -42,8 +42,8 @@ Stav: Úlohy: - Pracujte na texte, pošlite mi draft. -- Pripojte sa na server quadro.kemt.fei.tuke.sk (z tuke siete). Použite prostredie Anaconda. -- Na inferenciu (beh modelu) vyskúšajte vllm. +- Pripojte sa na server quadro.kemt.fei.tuke.sk (cez ssh z tuke siete). Použite prostredie Anaconda. +- Na inferenciu (beh modelu) vyskúšajte vllm. Alebo ollama alebo localai. Dobrý model pre slovenčinu je Qwen2.5 alebo slovak-t5-base. 17.10.20204 From 78ba13aa5906de127c897a23664783351e7e87d2 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 8 Nov 2024 08:29:31 +0000 Subject: [PATCH 05/51] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 8096afa3c..f0da9d077 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -43,7 +43,7 @@ Stav: - Pracujte na texte, pošlite mi draft. - Pripojte sa na server quadro.kemt.fei.tuke.sk (cez ssh z tuke siete). Použite prostredie Anaconda. -- Na inferenciu (beh modelu) vyskúšajte vllm. Alebo ollama alebo localai. Dobrý model pre slovenčinu je Qwen2.5 alebo slovak-t5-base. +- Na inferenciu (beh modelu) vyskúšajte vllm. Alebo ollama alebo localai. Dobrý model pre slovenčinu je Qwen2.5 alebo slovak-t5-base. Na vektorvé vyhľadávnaie je zatiaľ najlepší model multilingual E5. Možno aj BGE - nie je overený. 17.10.20204 From b5d1cc40df03cc4bd888a513f8efe274d2154bfd Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 8 Nov 2024 08:46:31 +0000 Subject: [PATCH 06/51] Update pages/students/2022/yevhenii_leonov/README.md --- pages/students/2022/yevhenii_leonov/README.md | 36 ++++++++++++++----- 1 file changed, 27 insertions(+), 9 deletions(-) diff --git a/pages/students/2022/yevhenii_leonov/README.md b/pages/students/2022/yevhenii_leonov/README.md index d215252b9..869b76d7d 100644 --- a/pages/students/2022/yevhenii_leonov/README.md +++ b/pages/students/2022/yevhenii_leonov/README.md @@ -30,7 +30,27 @@ Návrh na tému: Spolupráca Oleh Poiasnik -Stretnutie: +Stav: + +- Práca na úlohách z minulého stretnutia, vyskúšaný RAGAS. +- Nainštalovaný a vyskúšaný systém od p . Poiasnika. + +Úlohy: + +- Pripravte "vzorovú" množinu na testovanie. +- Pripravte testovaciu množinu. Množina by sa mala skladať z čo najväčšieho množstva príkladov. +- Vyskúšajte testovaciu množinu pomocou RAGAS a modelov ktoré používa p. Poiasnik. Vyhodnotte modely pomocou množiny. +- Kódy dávajte na GIT (napr. branch alebo adresár p Poiasnik GIT). +- Pokračujte v písomných úlohách. Hľadajte články cez scholar a píšte si poznámky. Do BP. + +Zásobník úloh: + +- Pripravte (nakódujte, odkopírovať) postup vyhľadávania podobný ako "reálny systém", ale využíval RAGAS. +- Pripravte testovacie API pre RAG systém. Bude to funkcia alebo URL cez ktorú sa bude dať systém testovať. +- Pomocou metriky a množiny vyhodnotte reálny systém. + + +Stretnutie 11.1.: Stav: @@ -39,17 +59,15 @@ Stav: Úlohy: - -- Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia. -- Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html -- Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky. -- Zistite a opíšte aké metriky sa používajú. +- [x] Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. Optimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia. +- [x] Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html +- [ ] Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky. +- [-] Zistite a opíšte aké metriky sa používajú. Ku každej metrike je potrebný odkaz na článok. Zásobník úloh: -- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. -- Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede. -- Napíšte príklady alebo použite generatívny model +- [-] Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede. +- [ ] Napíšte príklady alebo použite generatívny model From 708b3b8ae26e88ca2cb9a7f6617d5992d5911314 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 8 Nov 2024 13:14:13 +0000 Subject: [PATCH 07/51] Update pages/students/2022/vladyslav_yanchenko/README.md --- .../2022/vladyslav_yanchenko/README.md | 42 +++++++++++++++---- 1 file changed, 35 insertions(+), 7 deletions(-) diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index d3f61d579..4deab838e 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -18,18 +18,46 @@ Vedúci: doc. Matúš Pleva PhD. Nápad: -- Vytvorič webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT +- Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT + +Stretnutie 8.11.2024 + +Stav: + +- Backend SpringBoot, frontend React-Next.js. +- Urobená základná autentifikácia pomocou HTTP Basic Auth. +- Vyskúšaná kontajnerizácia. +- Kódy sú na GitHUBe. https://github.com/MrSid333/bankapp.git +- Aktivované Azure a Azure PostgreSQL aj úložisko. Zatiaľ nie je prepojené. úložisko. +- Naštudované GITHUB CI-CD. +- Nainštalované minikube. +- Práca na textoch. + +Úlohy: + +- Pokračujte v otvorených úlohách. +- Vytvorte nasadenie Vašej aplikácie do Azure a skritpy pre nasadenie dajte na GitHUB. Dávajte pozor aby ste nezverejnili Vaše prístupové údaje. +- Napíšte automatické testy a zostavte Github CI-CD pipeline. +- Zistite aké obmedzenia má GitHUB Pipeline. +- Píšte BP pošlite mi draft. + +Zásobník úloh: + +- Napíšte článok do "online média" o CI CD v klaude vo forme tutoriálu pre študentov. Z tutoriálu sa študent dozvie, čo je to CI CD, ako to vytvoriť pre konkretny projekt na GITHUbe. +- Zostavte pipeline pomocou iného nástroja (Azure, Jenkins) a porovnajte ich. + + Stretnutie 3.10.2024 Úlohy: -- Preštudujte si platformu Kuberntes. Napíšte čo je to. Napíšte čo je to kontajnerizácia. -- Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať. -- Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD násstorje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure. -- Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikrosluťžieb a bude využívať klaudové úložisko -- Ku aplikácii navrhnite niekoľko automatických testov. -- Zostavte CI CD P(ipeline pre automatické zostavenie a testovanie aplikácie +- [x] Preštudujte si platformu Kubernetes. Napíšte čo je to. Napíšte čo je to kontajnerizácia. +- [x] Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať. +- [x] Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikroslužieb a bude využívať klaudové úložisko. +- Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD nástroje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure. +- Ku aplikácii navrhnite niekoľko automatických testov. +- Zostavte CI CD Pipeline pre automatické zostavenie a testovanie aplikácie From d64df15f33e796efad726c31ad0b6ba53f502aab Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 8 Nov 2024 13:17:55 +0000 Subject: [PATCH 08/51] Update pages/students/2022/vladyslav_yanchenko/README.md --- pages/students/2022/vladyslav_yanchenko/README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index 4deab838e..1338c2c20 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -36,13 +36,14 @@ Stav: Úlohy: - Pokračujte v otvorených úlohách. -- Vytvorte nasadenie Vašej aplikácie do Azure a skritpy pre nasadenie dajte na GitHUB. Dávajte pozor aby ste nezverejnili Vaše prístupové údaje. +- Vytvorte nasadenie aplikácie pomocou Kubernetes. - Napíšte automatické testy a zostavte Github CI-CD pipeline. - Zistite aké obmedzenia má GitHUB Pipeline. - Píšte BP pošlite mi draft. Zásobník úloh: +- Vytvorte nasadenie Vašej aplikácie do Azure a skritpy pre nasadenie dajte na GitHUB. Dávajte pozor aby ste nezverejnili Vaše prístupové údaje. - Napíšte článok do "online média" o CI CD v klaude vo forme tutoriálu pre študentov. Z tutoriálu sa študent dozvie, čo je to CI CD, ako to vytvoriť pre konkretny projekt na GITHUbe. - Zostavte pipeline pomocou iného nástroja (Azure, Jenkins) a porovnajte ich. From d7f39c528f1675dbe3c9bab19c18f69d2bebe90c Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 12 Nov 2024 08:32:58 +0000 Subject: [PATCH 09/51] Update pages/students/2022/tetiana_mohorian/README.md --- .../students/2022/tetiana_mohorian/README.md | 28 +++++++++++++++++-- 1 file changed, 25 insertions(+), 3 deletions(-) diff --git a/pages/students/2022/tetiana_mohorian/README.md b/pages/students/2022/tetiana_mohorian/README.md index bb10c9f7f..a3834b5ef 100644 --- a/pages/students/2022/tetiana_mohorian/README.md +++ b/pages/students/2022/tetiana_mohorian/README.md @@ -27,6 +27,29 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov. - Na adaptáciu použite "prompting" a "LORA". - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). +Stretnutie 12.11.2024 + +Stav: + +- Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky. +- Na vyhodnotenie použitý svoj skript a framework llm-eval-harness. +- Pokračuje písanie. + +Úlohy: + +- Pošlite mi draft BP na ďalšie stretnutie. +- Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov. +- Pokračujte v písaní. +- Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT . +- Napíšte ChatGPT prompt na detekciu nenávistnej reči. +- Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab. + + +Zásobník úloh: + +- Zistite čo je to PEFT a kvantizácia a ako sa to používa. +- Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT. + Stretnutie 18.10.2024 Stav: @@ -46,9 +69,8 @@ Stav: Zásobník úloh: -- Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. -- Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. -- Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. +- [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. +- [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. Stretnutie 3.10.2024 From dbbac1f1253a1ed6d96e045af795c81aa62e1d1a Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 12 Nov 2024 09:02:44 +0000 Subject: [PATCH 10/51] Update pages/students/2022/daniil_huzenko/README.md --- pages/students/2022/daniil_huzenko/README.md | 17 ++++++++++++++--- 1 file changed, 14 insertions(+), 3 deletions(-) diff --git a/pages/students/2022/daniil_huzenko/README.md b/pages/students/2022/daniil_huzenko/README.md index 7b343ffec..af912a369 100644 --- a/pages/students/2022/daniil_huzenko/README.md +++ b/pages/students/2022/daniil_huzenko/README.md @@ -18,6 +18,16 @@ Predbežný názov: Testovanie hybridného klaudu s využiťím kombinácie verejného a privátneho riešenia +Stretnutie 12.11.2024 + +Stav: + +- Písanie draftu BP +- Vyskúšané tutoriály s Minikube. + +Úlohy: + + Stretnutie 4.10.2024 @@ -28,7 +38,8 @@ Naštudovaný Kubernetes, nainštalované Minikube Úlohy: -- Napíšte draft BP. Napíšte čo je to Kuberntes a ako sa používa.čo je to kontajnerizácia -- Napíšte, aké nástroje sa používajú na monitoring klastra. -- Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ – Calico. +- [x] Napíšte draft BP. Napíšte čo je to Kubernetes a ako sa používa.čo je to kontajnerizácia +- [x] Napíšte, aké nástroje sa používajú na monitoring klastra. +- [-] Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ – Calico. + From 670c89d4cb1f780a4baa1c80fb4e068751b0488c Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 12 Nov 2024 09:14:04 +0000 Subject: [PATCH 11/51] Update pages/students/2022/daniil_huzenko/README.md --- pages/students/2022/daniil_huzenko/README.md | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/daniil_huzenko/README.md b/pages/students/2022/daniil_huzenko/README.md index af912a369..cbe1fb11c 100644 --- a/pages/students/2022/daniil_huzenko/README.md +++ b/pages/students/2022/daniil_huzenko/README.md @@ -1,5 +1,5 @@ --- -title: Daaniil Huzenko +title: Daniil Huzenko published: true taxonomy: category: [bp2025] @@ -27,6 +27,9 @@ Stav: Úlohy: +- Zmontujte Raspberry Pi klaster: 1x skrinka s príslušenstvom, 6x RPI Compute Module 4, 1 doska a zdroj SUper6C. +- Urobte videoblog o tom ako zmontovať RPI klaster. Akým jayzkom? Po rusky alebo po slovensky? + Stretnutie 4.10.2024 From 50f42057434c2074694deecb6c5c1585d25f8bd6 Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 12 Nov 2024 09:23:04 +0000 Subject: [PATCH 12/51] Update pages/students/2022/daniil_huzenko/README.md --- pages/students/2022/daniil_huzenko/README.md | 17 ++++++++++++++++- 1 file changed, 16 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/daniil_huzenko/README.md b/pages/students/2022/daniil_huzenko/README.md index cbe1fb11c..f3e29f791 100644 --- a/pages/students/2022/daniil_huzenko/README.md +++ b/pages/students/2022/daniil_huzenko/README.md @@ -18,6 +18,8 @@ Predbežný názov: Testovanie hybridného klaudu s využiťím kombinácie verejného a privátneho riešenia +Cielom práce je vytvorenie vzelávacích materiáloov o Kubernetes. + Stretnutie 12.11.2024 Stav: @@ -28,7 +30,20 @@ Stav: Úlohy: - Zmontujte Raspberry Pi klaster: 1x skrinka s príslušenstvom, 6x RPI Compute Module 4, 1 doska a zdroj SUper6C. -- Urobte videoblog o tom ako zmontovať RPI klaster. Akým jayzkom? Po rusky alebo po slovensky? +- Urobte videoblog o tom ako zmontovať RPI klaster. Akým jazykom? Po rusky alebo po slovensky? +- Zistite čo je to MicroK8s + - Pokračujte v písaní BP. Používajte citácie na odbornú literatúru ()knihy a odborné články. Do BP píšte aj o hardvéri ktorý ste dostali. Odborné články nájdete na google scholar. + - Prihláste sa na Azure KLaud. + + +Zásobník úloh: + +- Oživte klaster a nainštalujte na neho MicroK8s. Inštaláciu urobte ľahko opakovateľnú pomocou skriptu. +- Nainštalujte monitorovacie nástroje na klaster. +- Urobte deployment aplikácie na privány klaster aj na verejnmý klaster (AKS). +- Urobte druhý videoblog o inštalácii softvéru na náš klaster. +- Napíšte textový blog o tom čo ste urobili - cieľ je poučiť a inšpirovať študentov. + From fe78cd0f9bab6f187713dfc3084d75bbce7c7c29 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Nov 2024 09:03:47 +0000 Subject: [PATCH 13/51] Update pages/students/2020/kamil_tomcufcik/README.md --- pages/students/2020/kamil_tomcufcik/README.md | 25 ++++++++++++++++++- 1 file changed, 24 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/kamil_tomcufcik/README.md b/pages/students/2020/kamil_tomcufcik/README.md index 296676079..8c25f7a65 100644 --- a/pages/students/2020/kamil_tomcufcik/README.md +++ b/pages/students/2020/kamil_tomcufcik/README.md @@ -15,8 +15,31 @@ Ciel: Overiť a zlepšiť možnosti generovania jednotkových testov +Stretnutie 14.11. 2924 -Stretnutie online 5.2.2023: +Stav: + +- Vyhľadané modely na generovanie kódu. Nie sú vyskúšané. Codex, CodeParrot a Incoder. Na unittesty CodeT5 a AthenaTest. +- Rozčítané knihy podľa pokynov. + +Úlohy: + +Zistite odpovede na tieto otázky: +- Ako zistíme, že vygenerovaný kód je dobrý. +- Ako zistíme, že vygenerovaný test vyhovuje špecifikácii? + +- Vypracujte písomný prehľad. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Použite odb orné článkyl. Odborné články nájdete na google scholar alebo scopus. +- Pripravte vzorovú dátovú množinu. Hotové testy, implementácie aj dokumentáciu., Možno vybrať exsitujúci open source projekt alebo hotovú dátovú množinu. +- Vyskúšajte niekoľko jazkovych modelov pre generovanie kódu aj generovanie testov. +- Do diplomovej práce vypracujte experimenty kde vyhodnotíte jazykové modely pre generovanie testov v rôznych prostrediach. + +Zásobník úloh: + +- Dotrénujte model pre lepšie generovansie testov. + + + +Stretnutie online 5.2.2024: Úlohy: From 576dc43627a02447ea049374cbc3ee54dc1a066b Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Nov 2024 09:13:54 +0000 Subject: [PATCH 14/51] Update pages/students/2020/pavol_hudak/README.md --- pages/students/2020/pavol_hudak/README.md | 18 +++++++++++++++++- 1 file changed, 17 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/pavol_hudak/README.md b/pages/students/2020/pavol_hudak/README.md index e78cd86c6..880703c28 100644 --- a/pages/students/2020/pavol_hudak/README.md +++ b/pages/students/2020/pavol_hudak/README.md @@ -15,9 +15,25 @@ Ciel: - Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku. - Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset. -- Strjový preklad vybranej množiny instruct. +- Strojový preklad vybranej množiny instruct. +Stretnutie 14.11.2024 +Stav: + +- Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle. +- Pokračuje písanie. + +Úlohy: + +- Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup. +- Pokračujte v púísaní +- Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely. + +Zásobník úloh: + +- Dotrénujte aj iné modely a porovnajte výsledky. +- Zverejnite dotrénovaný model alebo viac modelov na HF HUB. využijeme TUKE-KEMT org. Stretnutie 15.10. From e08a6d253b611f6946fb4535f0a680884d8a8447 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Nov 2024 11:56:41 +0000 Subject: [PATCH 15/51] Update pages/students/2022/daniil_huzenko/README.md --- pages/students/2022/daniil_huzenko/README.md | 13 +++++++++++++ 1 file changed, 13 insertions(+) diff --git a/pages/students/2022/daniil_huzenko/README.md b/pages/students/2022/daniil_huzenko/README.md index f3e29f791..c0ba489e1 100644 --- a/pages/students/2022/daniil_huzenko/README.md +++ b/pages/students/2022/daniil_huzenko/README.md @@ -20,6 +20,18 @@ Testovanie hybridného klaudu s využiťím kombinácie verejného a privátneho Cielom práce je vytvorenie vzelávacích materiáloov o Kubernetes. +Stretnutie 14.11 + +Stav: + +- 1 ks klastra je zmontovany + +Zásobník úloh: + +- Pripravte skripty Ansible pre "setup" klastra +- Pripravte skripty pre "reinstall" klastra poocou Ansible +- Zistite ako funguje netboot na rpi, skúste reinstall cez networkboot. + Stretnutie 12.11.2024 Stav: @@ -47,6 +59,7 @@ Zásobník úloh: + Stretnutie 4.10.2024 Stav: From 922906146b0566b4692ae674701d3c2480feca99 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 14 Nov 2024 11:59:58 +0000 Subject: [PATCH 16/51] Update pages/students/2022/daniil_huzenko/README.md --- pages/students/2022/daniil_huzenko/README.md | 9 ++++++++- 1 file changed, 8 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/daniil_huzenko/README.md b/pages/students/2022/daniil_huzenko/README.md index c0ba489e1..a978c4106 100644 --- a/pages/students/2022/daniil_huzenko/README.md +++ b/pages/students/2022/daniil_huzenko/README.md @@ -18,7 +18,7 @@ Predbežný názov: Testovanie hybridného klaudu s využiťím kombinácie verejného a privátneho riešenia -Cielom práce je vytvorenie vzelávacích materiáloov o Kubernetes. +Cielom práce je vytvorenie vzelávacích materiálov o Kubernetes. Stretnutie 14.11 @@ -26,6 +26,13 @@ Stav: - 1 ks klastra je zmontovany +Úlohy: + +- Napíšte o tom čo je to kontajnerizácia, čo je Kubernetes, stručne o Rpi CM4 a Super6C - opíšte HW. +- Píšte o metódach orchestrácie. Čo je to a akými metódami sa to robí? +- Napíšte o Ansible. Ako riadiť klaster pomocou Ansible? +- Citujte knihy a odborné články. Nájdete to na google scholar. + Zásobník úloh: - Pripravte skripty Ansible pre "setup" klastra From 48fa5847fcb2f1b0ea2e2df77e4d70416a99591b Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 18 Nov 2024 08:55:49 +0000 Subject: [PATCH 17/51] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index 83c94a7ea..4eeacf340 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -33,7 +33,7 @@ Stav: Úlohy: -- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. +- Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. - Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers. - Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? - Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification From 31cc4de512abef702ab5803f430a0dfd23b26bcc Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 22 Nov 2024 09:04:12 +0000 Subject: [PATCH 18/51] Update pages/students/2022/valerii_kutsenko/README.md --- pages/students/2022/valerii_kutsenko/README.md | 9 +++++++++ 1 file changed, 9 insertions(+) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 286ab5a67..73c238a8f 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -28,6 +28,15 @@ Ako na to: - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom. - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. +Stretnutie 22.11.2024 + +Stav: + +- Napísané o mt5 a umt5 v BP. +- Urobené dotrénovanie na generovanie otázok. +- Napísaná tabuľka s výsledkami experimentov. Metriky BLEU a ROGUE. +- Napísaný skript, skript je na gite. + Stretnutie 18.10.2024 Stav: From 9a62bcd94daac38233799de0706b350f2632994f Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 22 Nov 2024 09:27:11 +0000 Subject: [PATCH 19/51] Update pages/students/2022/valerii_kutsenko/README.md --- .../students/2022/valerii_kutsenko/README.md | 19 +++++++++++++++++-- 1 file changed, 17 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 73c238a8f..e2d0e6a62 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -14,7 +14,7 @@ rok začiatku štúdia: 2022 Generovanie otázok zo zadaného textu. -Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation +Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation Nové nápady: @@ -25,7 +25,7 @@ Nové nápady: Ako na to: - Natrénujte generatívny model pre generovanie otázok. Použite existujúci skript a množinu SKQUAD. -- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom. +- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom. - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. Stretnutie 22.11.2024 @@ -37,6 +37,21 @@ Stav: - Napísaná tabuľka s výsledkami experimentov. Metriky BLEU a ROGUE. - Napísaný skript, skript je na gite. +Úlohy: + +- Pokračujte v písaní práce. +- Pridajte slovak t5 base model do experimentov. +- Dotrénujte Slovak Falcon. Tam bude treba iný skript. + +Zásobník úloh: + +- Vymyslieť systém - natrénovať meurónku na návrh "odpovede". +- Vyskúšať generovať otázky bez zadanej odpovede. Odpoveď generujte pomocou modelu. Model pre automatické odpovede už je na HF Hube: slovakbert-skquad. +- Vyradiť také otázky, na ktoré systém nevie dopovedať. +- Skúsiť generovať otázky z medicínskeho textu. + + + Stretnutie 18.10.2024 Stav: From c30c3b2be87f72d565eb90b3a6db09da1594a777 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 22 Nov 2024 09:29:12 +0000 Subject: [PATCH 20/51] Update pages/students/2022/valerii_kutsenko/README.md --- pages/students/2022/valerii_kutsenko/README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index e2d0e6a62..602ad1668 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -39,7 +39,8 @@ Stav: Úlohy: -- Pokračujte v písaní práce. +- Pokračujte v písaní práce. Napíšte aj o metrikách vyhodnotenia. +- Vyhľadajte a stručne opíšte vedecké články o generovaní otázok. Na vyhľadanie použite Google scholar. - Pridajte slovak t5 base model do experimentov. - Dotrénujte Slovak Falcon. Tam bude treba iný skript. From f55147fab4dcd1e3d114809d66ea8ac187bc6385 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 22 Nov 2024 09:54:22 +0000 Subject: [PATCH 21/51] Update pages/students/2022/daniil_huzenko/README.md --- pages/students/2022/daniil_huzenko/README.md | 21 +++++++++++++++++++- 1 file changed, 20 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/daniil_huzenko/README.md b/pages/students/2022/daniil_huzenko/README.md index a978c4106..4816b0471 100644 --- a/pages/students/2022/daniil_huzenko/README.md +++ b/pages/students/2022/daniil_huzenko/README.md @@ -18,7 +18,26 @@ Predbežný názov: Testovanie hybridného klaudu s využiťím kombinácie verejného a privátneho riešenia -Cielom práce je vytvorenie vzelávacích materiálov o Kubernetes. +Cielom práce je vytvorenie vzelávacích materiálov o Kubernetes a funkčného prototypu privátneho klastra Kubernetes . + +Stetnutie 22.11.2024 + +Stav: + +- Klaster funguje. Ku každému node je možné sa pripojiť cez SSH. +- Momentálne notebook slúži ako router. +- Práca na DNS MASQ prideľovanie IP adries z routra. + +Úlohy: + +- Napíšte návod a skripty pre konfiguráciu routra pre K8s klastra SuperC. +- Router by mal vedieť: + - prideliť IP adresu v privátnej podsieti pre všetky uzly klastra. + - slúžiť ako rozhranie medzi verejnou a súkronou sieťou - mal by sprostredkovať služby Kubernetes. + - mal by vedieť konfigurovať klaster pomocou Ansible. +- Vyporacujte video a textový tutoriál k inštalácii klastra. + + Stretnutie 14.11 From 84109611cfb8aa8788419d3df6c37f72b6c01535 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 22 Nov 2024 09:57:31 +0000 Subject: [PATCH 22/51] Update pages/students/2022/daniil_huzenko/README.md --- pages/students/2022/daniil_huzenko/README.md | 7 +++++-- 1 file changed, 5 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/daniil_huzenko/README.md b/pages/students/2022/daniil_huzenko/README.md index 4816b0471..baa95b617 100644 --- a/pages/students/2022/daniil_huzenko/README.md +++ b/pages/students/2022/daniil_huzenko/README.md @@ -33,10 +33,13 @@ Stav: - Napíšte návod a skripty pre konfiguráciu routra pre K8s klastra SuperC. - Router by mal vedieť: - prideliť IP adresu v privátnej podsieti pre všetky uzly klastra. - - slúžiť ako rozhranie medzi verejnou a súkronou sieťou - mal by sprostredkovať služby Kubernetes. - - mal by vedieť konfigurovať klaster pomocou Ansible. + - mal by vedieť konfigurovať (resetovať) klaster pomocou Ansible. - Vyporacujte video a textový tutoriál k inštalácii klastra. +- Skripty a návody dajte na GIT. Video nedávajte na GIT. (dajte na Youtube). +Zásobník úloh: + +- Router by mal slúžiť ako rozhranie medzi verejnou a súkromnou sieťou - mal by sprostredkovať služby Kubernetes. Dorobte na to skripty Ansible a K8s konfiguráciu - Ingress, Load Balancer, Dashboard. Stretnutie 14.11 From 1dbfb5636bf6329440704b20c555bc2324fc343d Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 22 Nov 2024 12:05:19 +0000 Subject: [PATCH 23/51] Update pages/students/2022/andrii_pervashov/README.md --- pages/students/2022/andrii_pervashov/README.md | 14 ++++++++++++++ 1 file changed, 14 insertions(+) diff --git a/pages/students/2022/andrii_pervashov/README.md b/pages/students/2022/andrii_pervashov/README.md index df4e3da67..f4199dd07 100644 --- a/pages/students/2022/andrii_pervashov/README.md +++ b/pages/students/2022/andrii_pervashov/README.md @@ -22,6 +22,20 @@ Korekcia textu pomocou neurónových sietí - Aplikujte existujúci model na opravu textu vo vybraných úlohách. - Vyhodnnotte model pomocou overovacej množiny. +Stretnutie 22.11.2024 + +Stav: + +- WikiEdits nefunguje. +- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. +- Na trénovanie sa používa mt5-large. +- Konzultácia Ing. Harahusom PhD. +- Trénovanie modelu. + +Úlohy: + + + Stretnutie 3.10.2024 Stav: From 3e926981ea52ec5df66ae574fac075bd2c45d9e7 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 22 Nov 2024 12:19:14 +0000 Subject: [PATCH 24/51] Update pages/students/2022/andrii_pervashov/README.md --- pages/students/2022/andrii_pervashov/README.md | 13 ++++++++++++- 1 file changed, 12 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/andrii_pervashov/README.md b/pages/students/2022/andrii_pervashov/README.md index f4199dd07..57e02a531 100644 --- a/pages/students/2022/andrii_pervashov/README.md +++ b/pages/students/2022/andrii_pervashov/README.md @@ -27,13 +27,24 @@ Stretnutie 22.11.2024 Stav: - WikiEdits nefunguje. -- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. +- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky. - Na trénovanie sa používa mt5-large. - Konzultácia Ing. Harahusom PhD. - Trénovanie modelu. Úlohy: +- Pokračujte v písaní podľa pokynov nižšie. +- Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein. +- Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base. +- Pokračujte s "base modelmi". +- Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný. + +Zásobník úloh: + +- Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4. + + Stretnutie 3.10.2024 From b1cf76c004197202716b979e9adf422bef88fbe5 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 22 Nov 2024 12:40:59 +0000 Subject: [PATCH 25/51] Update pages/students/2019/filip_tomas/README.md --- pages/students/2019/filip_tomas/README.md | 24 ++++++++++++++++++++++- 1 file changed, 23 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index 1728300a5..3b04814bf 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -26,7 +26,29 @@ Ciel: - Vytvorte distribuovaný vyhľadávací index pre dáta zo slovenského internetu. Cieľom je vytvoriť vyhľadávanie na (skoro) celom slovenskom internete. -Spolupráca Michal Stromko, Kristián Sopkovič. +Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko + +Stretnutie 22.11. + +Stav: + +- Použitý HELM chart pre Milvus. Sú potrebné úpravy konfigurácie pre ARM - vymeniť Docker IMAGES. +- PV je vyriešené. + +Úlohy: + +- Skripty aj konfiguráky dávajte na GIT. +- Urobte skripty pre "prípravu" klastra. +- Urobte skripty pre nasadenie Mulvus na Klaster. +- Pokračujte v písaní práce. + + +Zásobík úloh: + +- Keď to bude hotové, vyskúšajte skripty na DeskPI Super6C Klastri, p. Huzenko. +- Urobte benchamark na Milvus deployment. +- Naštudujte si Ansible a urobíte Ansible konfiguráciu microk8s. + Stretnutie 7.11.2024 From 951cc830a191a5659b95d369a262e2a03465a61f Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 22 Nov 2024 13:46:01 +0000 Subject: [PATCH 26/51] Update pages/students/2022/daniil_huzenko/README.md --- pages/students/2022/daniil_huzenko/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2022/daniil_huzenko/README.md b/pages/students/2022/daniil_huzenko/README.md index baa95b617..e97c2ce5b 100644 --- a/pages/students/2022/daniil_huzenko/README.md +++ b/pages/students/2022/daniil_huzenko/README.md @@ -27,6 +27,7 @@ Stav: - Klaster funguje. Ku každému node je možné sa pripojiť cez SSH. - Momentálne notebook slúži ako router. - Práca na DNS MASQ prideľovanie IP adries z routra. +- Microk8s funguje Úlohy: From 10a112e180cc91d0cc673a10665884034898e7f8 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 28 Nov 2024 09:06:40 +0000 Subject: [PATCH 27/51] Update pages/students/2021/martin_sarissky/README.md --- pages/students/2021/martin_sarissky/README.md | 15 ++++++++++++++- 1 file changed, 14 insertions(+), 1 deletion(-) diff --git a/pages/students/2021/martin_sarissky/README.md b/pages/students/2021/martin_sarissky/README.md index fdde6b9f1..b3c2646ea 100644 --- a/pages/students/2021/martin_sarissky/README.md +++ b/pages/students/2021/martin_sarissky/README.md @@ -2,13 +2,26 @@ title: Martin Šarišský published: true taxonomy: - category: [vp2023,bp2024] + category: [vp2023,bp2024,dp2026] tag: [chatbot,rasa,dialog,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2021 +# Diplomová praca 2026 + +Ciele: + +- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. + +Príprava: + +- Zopakujte si Python. +- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. + + + # Bakalárska práca 2024 From d4d4623c769466fcb1a2ea1278814cd197632855 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 28 Nov 2024 09:13:01 +0000 Subject: [PATCH 28/51] Update pages/students/2021/martin_sarissky/README.md --- pages/students/2021/martin_sarissky/README.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/pages/students/2021/martin_sarissky/README.md b/pages/students/2021/martin_sarissky/README.md index b3c2646ea..30fcd0a41 100644 --- a/pages/students/2021/martin_sarissky/README.md +++ b/pages/students/2021/martin_sarissky/README.md @@ -19,6 +19,14 @@ Príprava: - Zopakujte si Python. - Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. +- Oboznámte sa s framewworkom LangChain. +- pozrite si LangChain Transformers Agents. +- Ako funguje FunctionCalling - AgentTools?. +- Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar. +- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting. +- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. + + From 4d9a1b91bd00464e847d44e46f8a7fd5f53224f7 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 28 Nov 2024 09:13:56 +0000 Subject: [PATCH 29/51] Update pages/students/2021/matej_scislak/README.md --- pages/students/2021/matej_scislak/README.md | 19 ++++++++++++++++++- 1 file changed, 18 insertions(+), 1 deletion(-) diff --git a/pages/students/2021/matej_scislak/README.md b/pages/students/2021/matej_scislak/README.md index 05fc062f6..1388c68be 100644 --- a/pages/students/2021/matej_scislak/README.md +++ b/pages/students/2021/matej_scislak/README.md @@ -2,13 +2,30 @@ title: Matej Ščišľak published: true taxonomy: - category: [bp2024] + category: [bp2024, dp2026] tag: [chatbot,rasa,dialog,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2021 +Ciele: + +- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. + +Príprava: + +- Zopakujte si Python. +- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. +- Oboznámte sa s framewworkom LangChain. +- pozrite si LangChain Transformers Agents. +- Ako funguje FunctionCalling - AgentTools?. +- Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar. +- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting. +- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. + + + # Bakalárska práca 2024 From d09d383fab69ebd7aa1f0e91755013ae07d8f7d0 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 28 Nov 2024 15:04:53 +0000 Subject: [PATCH 30/51] Update pages/students/2021/nikita_bodnar/README.md --- pages/students/2021/nikita_bodnar/README.md | 18 +++++++++++++++++- 1 file changed, 17 insertions(+), 1 deletion(-) diff --git a/pages/students/2021/nikita_bodnar/README.md b/pages/students/2021/nikita_bodnar/README.md index 4632c29b1..10625fa3b 100644 --- a/pages/students/2021/nikita_bodnar/README.md +++ b/pages/students/2021/nikita_bodnar/README.md @@ -10,6 +10,22 @@ taxonomy: rok začiatku štúdia: 2021 +# Bakalárska práca 2025 + +Stav: + +- Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny. +- Textová časť je neuspokojivá. + +Úlohy: + +- Naučte sa trénovať systém pre strojový preklad. +- Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký. +- Natrénujte a vyhodnotte model. +- Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar. + + + # Bakalárska práca 2024 Korekcia textu pomocou neurónových sietí @@ -32,7 +48,7 @@ Stav: Úlohy: -- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train +- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train. - Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho. - Pokračujte v písaní bakalárskej práce. From b5f3345e9afd44fdaecac7ecc369155bb7276928 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 12 Dec 2024 09:53:08 +0000 Subject: [PATCH 31/51] Update pages/students/2020/kamil_tomcufcik/README.md --- pages/students/2020/kamil_tomcufcik/README.md | 9 +++++++-- 1 file changed, 7 insertions(+), 2 deletions(-) diff --git a/pages/students/2020/kamil_tomcufcik/README.md b/pages/students/2020/kamil_tomcufcik/README.md index 8c25f7a65..7df887c8f 100644 --- a/pages/students/2020/kamil_tomcufcik/README.md +++ b/pages/students/2020/kamil_tomcufcik/README.md @@ -15,6 +15,12 @@ Ciel: Overiť a zlepšiť možnosti generovania jednotkových testov +Stretnutie 12.12.2024 + +Stav: + +- Metrika Pass@K sa používa na vyodnotenie generovaného kódu. Meria, koľko automatických textov bolo splnených. Používa sa aj BLEU, verzia CodeBLEU. + Stretnutie 14.11. 2924 Stav: @@ -27,8 +33,7 @@ Stav: Zistite odpovede na tieto otázky: - Ako zistíme, že vygenerovaný kód je dobrý. - Ako zistíme, že vygenerovaný test vyhovuje špecifikácii? - -- Vypracujte písomný prehľad. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Použite odb orné článkyl. Odborné články nájdete na google scholar alebo scopus. +- Vypracujte písomný prehľad. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Použite odborné článkyl. Odborné články nájdete na google scholar alebo scopus. - Pripravte vzorovú dátovú množinu. Hotové testy, implementácie aj dokumentáciu., Možno vybrať exsitujúci open source projekt alebo hotovú dátovú množinu. - Vyskúšajte niekoľko jazkovych modelov pre generovanie kódu aj generovanie testov. - Do diplomovej práce vypracujte experimenty kde vyhodnotíte jazykové modely pre generovanie testov v rôznych prostrediach. From e7ddfee584883b74aa298dd12529d6a8e19f508c Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 12 Dec 2024 09:59:41 +0000 Subject: [PATCH 32/51] Update pages/students/2020/kamil_tomcufcik/README.md --- pages/students/2020/kamil_tomcufcik/README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/kamil_tomcufcik/README.md b/pages/students/2020/kamil_tomcufcik/README.md index 7df887c8f..64675aa02 100644 --- a/pages/students/2020/kamil_tomcufcik/README.md +++ b/pages/students/2020/kamil_tomcufcik/README.md @@ -19,7 +19,8 @@ Stretnutie 12.12.2024 Stav: -- Metrika Pass@K sa používa na vyodnotenie generovaného kódu. Meria, koľko automatických textov bolo splnených. Používa sa aj BLEU, verzia CodeBLEU. +- Metrika Pass@K sa používa na vyhodnotenie generovaného kódu. Meria, koľko automatických textov bolo splnených. Používa sa aj BLEU, verzia CodeBLEU. CodeJudge. +- Na testovanie generovaných testov sa používajú: vykonanie produkčného kódu, pokrytie testov, mutácie kódu, statická analýza generovaného kódu. Stretnutie 14.11. 2924 From 2372d906c0cde1314941942f4e7c52d25a20f9fd Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 12 Dec 2024 10:02:44 +0000 Subject: [PATCH 33/51] Update pages/students/2020/kamil_tomcufcik/README.md --- pages/students/2020/kamil_tomcufcik/README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/kamil_tomcufcik/README.md b/pages/students/2020/kamil_tomcufcik/README.md index 64675aa02..6cc8c8ae3 100644 --- a/pages/students/2020/kamil_tomcufcik/README.md +++ b/pages/students/2020/kamil_tomcufcik/README.md @@ -21,6 +21,7 @@ Stav: - Metrika Pass@K sa používa na vyhodnotenie generovaného kódu. Meria, koľko automatických textov bolo splnených. Používa sa aj BLEU, verzia CodeBLEU. CodeJudge. - Na testovanie generovaných testov sa používajú: vykonanie produkčného kódu, pokrytie testov, mutácie kódu, statická analýza generovaného kódu. +- Vyskúšaný model polycoder (na C),codeparrot (na python) na kaggle. Code T5 zatiaľ nie je vyskúšaný. Stretnutie 14.11. 2924 @@ -34,7 +35,7 @@ Stav: Zistite odpovede na tieto otázky: - Ako zistíme, že vygenerovaný kód je dobrý. - Ako zistíme, že vygenerovaný test vyhovuje špecifikácii? -- Vypracujte písomný prehľad. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Použite odborné článkyl. Odborné články nájdete na google scholar alebo scopus. +- Vypracujte písomný prehľad. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Použite odborné články. Odborné články nájdete na google scholar alebo scopus. - Pripravte vzorovú dátovú množinu. Hotové testy, implementácie aj dokumentáciu., Možno vybrať exsitujúci open source projekt alebo hotovú dátovú množinu. - Vyskúšajte niekoľko jazkovych modelov pre generovanie kódu aj generovanie testov. - Do diplomovej práce vypracujte experimenty kde vyhodnotíte jazykové modely pre generovanie testov v rôznych prostrediach. From 99221a5463cc07a5e9d7057ac7c6275bc281c801 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 12 Dec 2024 10:04:14 +0000 Subject: [PATCH 34/51] Update pages/students/2020/kamil_tomcufcik/README.md --- pages/students/2020/kamil_tomcufcik/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2020/kamil_tomcufcik/README.md b/pages/students/2020/kamil_tomcufcik/README.md index 6cc8c8ae3..3077a9c0b 100644 --- a/pages/students/2020/kamil_tomcufcik/README.md +++ b/pages/students/2020/kamil_tomcufcik/README.md @@ -22,6 +22,7 @@ Stav: - Metrika Pass@K sa používa na vyhodnotenie generovaného kódu. Meria, koľko automatických textov bolo splnených. Používa sa aj BLEU, verzia CodeBLEU. CodeJudge. - Na testovanie generovaných testov sa používajú: vykonanie produkčného kódu, pokrytie testov, mutácie kódu, statická analýza generovaného kódu. - Vyskúšaný model polycoder (na C),codeparrot (na python) na kaggle. Code T5 zatiaľ nie je vyskúšaný. +- Copilot by mal byť pre študentov zadarmo. Študneti majú aj Azure kredity. Stretnutie 14.11. 2924 From 9204dc8dbff3ccc32be007d55c3dbb7aff82a5d8 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 12 Dec 2024 10:12:36 +0000 Subject: [PATCH 35/51] Update pages/students/2020/kamil_tomcufcik/README.md --- pages/students/2020/kamil_tomcufcik/README.md | 17 +++++++++++------ 1 file changed, 11 insertions(+), 6 deletions(-) diff --git a/pages/students/2020/kamil_tomcufcik/README.md b/pages/students/2020/kamil_tomcufcik/README.md index 3077a9c0b..5c2fe7185 100644 --- a/pages/students/2020/kamil_tomcufcik/README.md +++ b/pages/students/2020/kamil_tomcufcik/README.md @@ -24,6 +24,11 @@ Stav: - Vyskúšaný model polycoder (na C),codeparrot (na python) na kaggle. Code T5 zatiaľ nie je vyskúšaný. - Copilot by mal byť pre študentov zadarmo. Študneti majú aj Azure kredity. +Úlohy: + +- Pokračujte v otvorených úlohách. +- Pripravte sa na predobhajobu - prezentácia s výsledkami. + Stretnutie 14.11. 2924 Stav: @@ -34,12 +39,12 @@ Stav: Úlohy: Zistite odpovede na tieto otázky: -- Ako zistíme, že vygenerovaný kód je dobrý. -- Ako zistíme, že vygenerovaný test vyhovuje špecifikácii? -- Vypracujte písomný prehľad. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Použite odborné články. Odborné články nájdete na google scholar alebo scopus. -- Pripravte vzorovú dátovú množinu. Hotové testy, implementácie aj dokumentáciu., Možno vybrať exsitujúci open source projekt alebo hotovú dátovú množinu. -- Vyskúšajte niekoľko jazkovych modelov pre generovanie kódu aj generovanie testov. -- Do diplomovej práce vypracujte experimenty kde vyhodnotíte jazykové modely pre generovanie testov v rôznych prostrediach. +- [x] Ako zistíme, že vygenerovaný kód je dobrý. +- [x] Ako zistíme, že vygenerovaný test vyhovuje špecifikácii? +- [-] Vypracujte písomný prehľad modelov pre generovanie kódu. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Napíšte na akej neurónovej sieti sú založené, aké sú veľk=, aké jazyky podporujú, aké výsledky dosahujú. Použite odborné články. Odborné články nájdete na google scholar alebo scopus. +- [-] Pripravte vzorovú dátovú množinu. Hotové testy, implementácie aj dokumentáciu. Možno vybrať existujúci open source projekt alebo hotovú dátovú množinu. +- [-] Vyskúšajte niekoľko jazykových modelov pre generovanie kódu aj generovanie testov. +- [ ] Do diplomovej práce vypracujte experimenty kde vyhodnotíte jazykové modely pre generovanie testov v rôznych prostrediach. Zásobník úloh: From 7ccad7cee632c5a9635597ca2d2a561205d16cca Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 12 Dec 2024 10:15:24 +0000 Subject: [PATCH 36/51] Update pages/students/2020/kamil_tomcufcik/README.md --- pages/students/2020/kamil_tomcufcik/README.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/pages/students/2020/kamil_tomcufcik/README.md b/pages/students/2020/kamil_tomcufcik/README.md index 5c2fe7185..74fe407e1 100644 --- a/pages/students/2020/kamil_tomcufcik/README.md +++ b/pages/students/2020/kamil_tomcufcik/README.md @@ -29,6 +29,10 @@ Stav: - Pokračujte v otvorených úlohách. - Pripravte sa na predobhajobu - prezentácia s výsledkami. +Zásobník úloh: + +- Pomocou vybranej množiny porovnajte vybrané modely pre generovanie kódu. + Stretnutie 14.11. 2924 Stav: From 1abf61d1fcdc0eb089aaa6d660bf5fae65f77167 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 13 Dec 2024 13:16:06 +0000 Subject: [PATCH 37/51] Update pages/students/2022/vladyslav_yanchenko/README.md --- .../students/2022/vladyslav_yanchenko/README.md | 17 ++++++++++++++++- 1 file changed, 16 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index 1338c2c20..9184aa6a5 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -18,7 +18,22 @@ Vedúci: doc. Matúš Pleva PhD. Nápad: -- Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT +- Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD. + +Stretnutie 13.12.2024 + +Stav: + +- CI-CD GIT HUB pipeline pre backend aj frontend. +- Dockerfile je, zatiaľ to nefunguje s Azure Cloud, funguje lokalne. Registry zatiaľ nefunguje. +- Auth cez JWT Token do LocalStorage. +- Vyskúšaný Docker Compose, zatiaľ nefunguje na lokálny klaster. + + +Úlohy: + +- Zistiť čo je Registry a ako to funguje. + Stretnutie 8.11.2024 From 2797fe2039d5874b7db3255795a468d0ed35cacd Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 13 Dec 2024 13:30:49 +0000 Subject: [PATCH 38/51] Update pages/students/2022/vladyslav_yanchenko/README.md --- pages/students/2022/vladyslav_yanchenko/README.md | 11 ++++++++++- 1 file changed, 10 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index 9184aa6a5..6b37c581d 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -12,7 +12,16 @@ rok začiatku štúdia: 2022 # Bakalárska práca 2025 -Názov: Testovanie v klaudového riešenia na platforme Kuberntes +Názov: Kontinuálne nasadenie a testovanie aplikácie v klaudovom prostredí. + +Úlohy BP: + +- Vypracujte písomný prehľad verejných klaudových služieb pre podporu procesu a nasadenia aplikácie. +- Vypracujte písomný prehľad prostriedkov kontinuálneho nasadenie a integrácie. +- Vytvorte webovú aplikáciu zloženú z viacerých komponentov a upravte ju do podoby vhodnej na nasadenie v klaude. +- Vyberte vhodné kladudové riešenia pre nasadenie Vašej aplikácie a vytvorte skripty pre nasadenie aplikácie. +- Vytvorte proces kontinuálneho nasadenia a integrácie zmien do Vašej aplikácie pomocou vybraných kladudových služieb. + Vedúci: doc. Matúš Pleva PhD. From aa9c494e1664a1c8bf4aa4cfcffe0bd1e978ca4d Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 13 Dec 2024 13:33:22 +0000 Subject: [PATCH 39/51] Update pages/students/2022/vladyslav_yanchenko/README.md --- pages/students/2022/vladyslav_yanchenko/README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index 6b37c581d..cc9564e10 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -19,8 +19,8 @@ Názov: Kontinuálne nasadenie a testovanie aplikácie v klaudovom prostredí. - Vypracujte písomný prehľad verejných klaudových služieb pre podporu procesu a nasadenia aplikácie. - Vypracujte písomný prehľad prostriedkov kontinuálneho nasadenie a integrácie. - Vytvorte webovú aplikáciu zloženú z viacerých komponentov a upravte ju do podoby vhodnej na nasadenie v klaude. -- Vyberte vhodné kladudové riešenia pre nasadenie Vašej aplikácie a vytvorte skripty pre nasadenie aplikácie. -- Vytvorte proces kontinuálneho nasadenia a integrácie zmien do Vašej aplikácie pomocou vybraných kladudových služieb. +- Vyberte vhodné klaudové riešenia pre nasadenie Vašej aplikácie a vytvorte skripty pre nasadenie aplikácie. Opíšte architektúru Vašej aplikácie. +- Vytvorte a opíšte proces kontinuálneho nasadenia a integrácie zmien do Vašej aplikácie pomocou vybraných klaudových služieb. Vedúci: doc. Matúš Pleva PhD. From 520b06748eb2094e771d72363d0071f194977817 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 13 Dec 2024 13:35:46 +0000 Subject: [PATCH 40/51] Update pages/students/2022/vladyslav_yanchenko/README.md --- pages/students/2022/vladyslav_yanchenko/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index cc9564e10..0c33953e9 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -18,7 +18,7 @@ Názov: Kontinuálne nasadenie a testovanie aplikácie v klaudovom prostredí. - Vypracujte písomný prehľad verejných klaudových služieb pre podporu procesu a nasadenia aplikácie. - Vypracujte písomný prehľad prostriedkov kontinuálneho nasadenie a integrácie. -- Vytvorte webovú aplikáciu zloženú z viacerých komponentov a upravte ju do podoby vhodnej na nasadenie v klaude. +- Vytvorte webovú aplikáciu zloženú z viacerých komponentov a upravte ju do podoby vhodnej na nasadenie v klaude. K aplikácii vytvorte automatické testy. - Vyberte vhodné klaudové riešenia pre nasadenie Vašej aplikácie a vytvorte skripty pre nasadenie aplikácie. Opíšte architektúru Vašej aplikácie. - Vytvorte a opíšte proces kontinuálneho nasadenia a integrácie zmien do Vašej aplikácie pomocou vybraných klaudových služieb. From cb4e82b1caa2664e20883fd36b7e0a9b0e70a54a Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 16 Dec 2024 08:47:25 +0000 Subject: [PATCH 41/51] Update pages/students/2019/filip_tomas/README.md --- pages/students/2019/filip_tomas/README.md | 14 ++++++++++++++ 1 file changed, 14 insertions(+) diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index 3b04814bf..839b63393 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -28,6 +28,20 @@ Ciel: Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko +Stretnutie 16.12. + +- Vytvorený indexer +- Vytvorené rozhranie vyhľadávania +- Deployment Milvus. +- Zatiaľ je indexovanie pomalé na domácej karte. + +Úlohy: + +- Dajte kódy na GIT. +- Vyskúšajte indexovanie na servri QUADRO +- Pracujte na textovej časti. + + Stretnutie 22.11. Stav: From c9ecb1e117f713bc9b644246f5a77771e42cb97e Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 17 Dec 2024 15:24:01 +0000 Subject: [PATCH 42/51] Update pages/students/2021/nikita_bodnar/README.md --- pages/students/2021/nikita_bodnar/README.md | 24 +++++++++++++++++++++ 1 file changed, 24 insertions(+) diff --git a/pages/students/2021/nikita_bodnar/README.md b/pages/students/2021/nikita_bodnar/README.md index 10625fa3b..fe6459711 100644 --- a/pages/students/2021/nikita_bodnar/README.md +++ b/pages/students/2021/nikita_bodnar/README.md @@ -11,6 +11,30 @@ taxonomy: rok začiatku štúdia: 2021 # Bakalárska práca 2025 +Stretnutie 17.12. + + +Stav: + +- Práca na skriptoch, nainštalovaný Pytorch, transformers, fairseq, +- Skript na prípravu dát - spustený. +- chyba pri spustení trénovacieho skriptu - chýba executable. + +Úlohy: + +- ! Začnite pracovať na písomnej časti. +- Nainštalujte si Marian NMT. +- Vypýtajte si Marian Model na opravu od Ing. Maroš Harahus. +- Vyskúšajte ho a vyhodnotte pomocou metriky WER. Zistite si čo je to WER, napíšte to do práce +- Nainštalujte si model ByT5 z knižnice HF Transformers. Zistie čo to je, napíšte to do práce. +- Vyskúšajte model ByT5 na korekciu textu. Vyhodnoote ho. +- Vyskúšajte model SlovakBERT na detekciu preklepov. Model určuje pravdepodobnosť každého slova vo vete. Model vie doplniť chýbajúce slovo, alebo najpravdepodobnejšie slovo. Zistite že ako, napíšte to do práce. +- Do práce doplnte odkazy na vedecké články. + + +Zásobník úloh: + +- Natrénujte model. Stav: From 454c8fd8957f7b8a202f058532aee335de5d3faa Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 19 Dec 2024 12:53:53 +0000 Subject: [PATCH 43/51] Update pages/students/2022/andrii_pervashov/README.md --- pages/students/2022/andrii_pervashov/README.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/pages/students/2022/andrii_pervashov/README.md b/pages/students/2022/andrii_pervashov/README.md index 57e02a531..3b6789631 100644 --- a/pages/students/2022/andrii_pervashov/README.md +++ b/pages/students/2022/andrii_pervashov/README.md @@ -22,6 +22,14 @@ Korekcia textu pomocou neurónových sietí - Aplikujte existujúci model na opravu textu vo vybraných úlohách. - Vyhodnnotte model pomocou overovacej množiny. +Stretnutie 19.12.2024 + +Stav: + +- Nové trénovanie Byt5 z mc4. Vyzerá, že to ide. Vlastný trénovací skript, skript od Ing. Harahusa. +- Text prepísaný do Latex, WIP + + Stretnutie 22.11.2024 Stav: From 1774a194e06d51c152277b0d0a099efacf6d7ed8 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 19 Dec 2024 13:25:30 +0000 Subject: [PATCH 44/51] Update pages/students/2022/andrii_pervashov/README.md --- pages/students/2022/andrii_pervashov/README.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/pages/students/2022/andrii_pervashov/README.md b/pages/students/2022/andrii_pervashov/README.md index 3b6789631..25f6190f9 100644 --- a/pages/students/2022/andrii_pervashov/README.md +++ b/pages/students/2022/andrii_pervashov/README.md @@ -14,6 +14,7 @@ rok začiatku štúdia: 2022 ## Bakalárska práca 2025 + Návrh na tému: Korekcia textu pomocou neurónových sietí @@ -22,6 +23,13 @@ Korekcia textu pomocou neurónových sietí - Aplikujte existujúci model na opravu textu vo vybraných úlohách. - Vyhodnnotte model pomocou overovacej množiny. +Návrh na zadanie práce: + +1. Napíšte prehľad metód opravy textu pomcou neurónových modelov. +2. Zostavte trénovací korpus a natrénujte vybraný model na úlohu opravy textu v slovenskom jazyku. +3. Navrhnite experiment a vyhodnotte kvalitu natrénovaného neurónového modelu. +4. Identifikujte možné zlepšenia navrhnutého modelu. + Stretnutie 19.12.2024 Stav: From 98ef74e3cb058e8d39f764f1a984ffe6d83a26a5 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 20 Dec 2024 09:32:04 +0000 Subject: [PATCH 45/51] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 15 +++++++++++---- 1 file changed, 11 insertions(+), 4 deletions(-) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index 4eeacf340..a8f69c5c3 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -23,6 +23,13 @@ Do budúcnosti: - Vypracovanie webového dema - Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty). +Stretnutie 20.12.2024 + +Stav: + +- Splnené úlohy z posledného stetnutia + + Stretnutie 30.10.2024 Stav: @@ -33,10 +40,10 @@ Stav: Úlohy: -- Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. -- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers. -- Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? -- Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification +- [x] Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. +- [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers. +- [x] Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? +- [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification Zásobník úloh: From 64cc53b462b5474e845b8301ca8cf5ba0344c46d Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 20 Dec 2024 09:55:02 +0000 Subject: [PATCH 46/51] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 10 ++++++++-- 1 file changed, 8 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index a8f69c5c3..56691e12b 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -12,8 +12,6 @@ rok začiatku štúdia: 2022 # Bakalárska práca 2025 - - Cieľ: - Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít. @@ -23,6 +21,14 @@ Do budúcnosti: - Vypracovanie webového dema - Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty). +Návrh na zadanie bakalárskej práce: + +1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku. +2. Napíšte prehľad existujúcich dátových množin, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít. +3. Vyberte vhodný model a dátovú množinu a natrénujte a vyhodnotte model. +4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít. +5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomentovaných entít. + Stretnutie 20.12.2024 Stav: From 217bf9264834a7e86c1e8ce26562e47439b97d17 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 20 Dec 2024 09:57:13 +0000 Subject: [PATCH 47/51] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index 56691e12b..ec6500d3f 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -35,6 +35,11 @@ Stav: - Splnené úlohy z posledného stetnutia +Zásobník úloh: + +- Zostavte webové demo +- Pripravte experiment pre ukrajinský a ruský jazyk. + Stretnutie 30.10.2024 From f8c46c9bcb605ed46c08016ca3333335f716aae3 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 20 Dec 2024 10:10:58 +0000 Subject: [PATCH 48/51] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index ec6500d3f..e30fb8636 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -34,11 +34,23 @@ Stretnutie 20.12.2024 Stav: - Splnené úlohy z posledného stetnutia +- Text je v dobrom stave, treba ešte použiť šablónu. + + +Úlohy: + +- Pripravte si prezentáciu. +- Textu dajte na moodle, skripty dajte na git. +- Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články. +- Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky. + Zásobník úloh: - Zostavte webové demo - Pripravte experiment pre ukrajinský a ruský jazyk. +- Priprave Dockerfile pre Vaše demo +- Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty. Stretnutie 30.10.2024 From 4755875388fccb7f69130276be2380f69c0f519f Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 17 Jan 2025 09:13:07 +0000 Subject: [PATCH 49/51] Update pages/students/2019/filip_tomas/README.md --- pages/students/2019/filip_tomas/README.md | 9 +++++++++ 1 file changed, 9 insertions(+) diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index 839b63393..c10db6a2f 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -28,6 +28,15 @@ Ciel: Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko +Stretnutie 17.1.2025 + +Stav: + +- Pokus o indexovanie na Quadre, ale treba nainštalovať Anaconda pre závislosti. +- Prezentácia. + + + Stretnutie 16.12. - Vytvorený indexer From fee475c4ae813667aaa752b9b9d4335afe34d4db Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 21 Jan 2025 09:05:05 +0000 Subject: [PATCH 50/51] Update pages/students/2021/nikita_bodnar/README.md --- pages/students/2021/nikita_bodnar/README.md | 19 +++++++++++++++++++ 1 file changed, 19 insertions(+) diff --git a/pages/students/2021/nikita_bodnar/README.md b/pages/students/2021/nikita_bodnar/README.md index fe6459711..2b1a4b0d1 100644 --- a/pages/students/2021/nikita_bodnar/README.md +++ b/pages/students/2021/nikita_bodnar/README.md @@ -11,6 +11,25 @@ taxonomy: rok začiatku štúdia: 2021 # Bakalárska práca 2025 + +Zadanie: + +1. Vypracujte prehľad neurónových sietí a metód na vykonávanie opravy textu. +2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu. +3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia. + +Poznámky 21.1.2025 + +Stav: + +- Napísané skripty pre vyhodnotneie "masked" language modeling. +- Vyhodnotené modely SlovakBERT a multilingualbert BASE. + +Úlohy: + +- Vytvorte dátovú množinu pre úlohu detekcie preklepov. + + Stretnutie 17.12. From 5da7a914bb0d14877dcce6b2a709c1d00710c460 Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 21 Jan 2025 09:11:55 +0000 Subject: [PATCH 51/51] Update pages/students/2021/nikita_bodnar/README.md --- pages/students/2021/nikita_bodnar/README.md | 10 +++++++++- 1 file changed, 9 insertions(+), 1 deletion(-) diff --git a/pages/students/2021/nikita_bodnar/README.md b/pages/students/2021/nikita_bodnar/README.md index 2b1a4b0d1..c9c630a4a 100644 --- a/pages/students/2021/nikita_bodnar/README.md +++ b/pages/students/2021/nikita_bodnar/README.md @@ -27,7 +27,15 @@ Stav: Úlohy: -- Vytvorte dátovú množinu pre úlohu detekcie preklepov. +- Vyberte vhodnú množinu slovenských textov. +- Pripravte množinu pre úlohu detekcie chýbajúcej alebo nadbytočnej interpunkcie - (bodka, čiarka, otáznik, výkričník, dvojbodka). +- Pripravte množinu pre pre úlohu opravy uť identifikovaého preklepu. +- Vyhodnotte viaceré modely. +- Pokračujte v písaní práce podľa nového zadania. + +Zásobník úloh: + +- Využite modely SlovakT5 a ByT5. Stretnutie 17.12.