From b342417dc909c248e1ed705cd7943f727e2eb18b Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 27 Feb 2025 09:54:02 +0000 Subject: [PATCH 01/37] Update pages/students/2022/vladyslav_yanchenko/README.md --- pages/students/2022/vladyslav_yanchenko/README.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index d3b53ca5..2a8d59d6 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -30,6 +30,14 @@ Nápad: - Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD. +Stretnutie 27.2.2025 + +Stav: + +- Grafana a Prometheus inštalované cez K8s +- Práca na písomnej časti. + + Stretnutie 31.1.2025 Stav: From 7d08f5ecaba5683f4abfb548746cfecfda4aa725 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 27 Feb 2025 10:00:58 +0000 Subject: [PATCH 02/37] Update pages/students/2022/vladyslav_yanchenko/README.md --- pages/students/2022/vladyslav_yanchenko/README.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index 2a8d59d6..aba327c4 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -37,6 +37,12 @@ Stav: - Grafana a Prometheus inštalované cez K8s - Práca na písomnej časti. +Úlohy: + +- Zjednotiť zápis slova klaud +- Opraviť preklapy +- Opraviť šablónu + Stretnutie 31.1.2025 From e64bf32b176a3332b3215fb24d458bd1a014918e Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Feb 2025 09:35:53 +0000 Subject: [PATCH 03/37] Update pages/students/2023/yevhenii_medushivskyi/README.md --- .../2023/yevhenii_medushivskyi/README.md | 20 +++++++++++++++++++ 1 file changed, 20 insertions(+) diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index e293b1a1..4637afae 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -23,5 +23,25 @@ Predbežné zadanie: 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. +Stretnutie 28.2.2025 + +Úlohy: + +- Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda. +- Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články. +- Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser). + + +Zásobník úloh: + +- Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát. +- Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy. +- Vytvorte korpus medicínskych dát. +- Vytvorte korpus novinových článkov a blogov. +- Vytvorte korpus webových diskusií. +- Vytvorte korpus všeobecných dát. +- Vytvorené texty analyzujte. + + From 9175a02fc6f04866a7cb00fdbd0f639ccced64ae Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Feb 2025 12:50:37 +0000 Subject: [PATCH 04/37] Update pages/students/2021/artur_hyrenko/README.md --- pages/students/2021/artur_hyrenko/README.md | 13 +++++++++++-- 1 file changed, 11 insertions(+), 2 deletions(-) diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index 3270f526..956ae64b 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -12,7 +12,16 @@ rok začiatku štúdia: 2021 # Diplomová práca 2026 -Vyhondotenie jayzkových modelov +Vyhodndotenie jazykových modelov + + +Stretnutie 28.2.2025 + +Stav: + +- Vyskúšané LM (cez ollama, aj API) Python (in progress). +- + Stretnutie 5.2.2025 @@ -28,6 +37,6 @@ Stretnutie 5.2.2025 Zásobník úloh: - Nájdite na webe zaujímavý zdroj otázok a odpovedí, ktorý by bol vhodný na vyhodnotneie jazykového modelu. -- Vyberte úlohu vhodú na anotáciu (spolu s vedúcim). +- Vyberte úlohu vhodnú na anotáciu (spolu s vedúcim). From 5d0d817c4e81175db858339f154e9245bb77644d Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Feb 2025 12:53:47 +0000 Subject: [PATCH 05/37] Update pages/students/2021/artur_hyrenko/README.md --- pages/students/2021/artur_hyrenko/README.md | 8 +++++++- 1 file changed, 7 insertions(+), 1 deletion(-) diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index 956ae64b..923916df 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -20,9 +20,13 @@ Stretnutie 28.2.2025 Stav: - Vyskúšané LM (cez ollama, aj API) Python (in progress). -- +Úlohy: + +- Pokračujte v štúdiu. +- Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . + Stretnutie 5.2.2025 Úlohy: @@ -40,3 +44,5 @@ Zásobník úloh: - Vyberte úlohu vhodnú na anotáciu (spolu s vedúcim). + + From 1872c601a35784e05ed9831192624f48a2b4fadc Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Feb 2025 13:00:47 +0000 Subject: [PATCH 06/37] Update pages/students/2021/artur_hyrenko/README.md --- pages/students/2021/artur_hyrenko/README.md | 7 ++++++- 1 file changed, 6 insertions(+), 1 deletion(-) diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index 923916df..e97ea996 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -25,7 +25,12 @@ Stav: Úlohy: - Pokračujte v štúdiu. -- Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . +- Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . Urobte si poznámky. Zistite aké jazykové modely majp podporu slovenského jazyka. Zistite ako sa vyhodnocuje bias v jazykových modelov. Zistitie, aké podobné množiny existujú pre iné jazyky. + +Zásobník úloh: + +- Porovnajte viaceré modely pre mieru výskyt rodových stereotypov. Môže byť aj pre viaceré jazyky (slovenčina, angličtina, ruština). +- Zistitie, ako je možné potlačiť neželané vlastnosti modelu. (https://huggingface.co/docs/trl/en/index, https://github.com/allenai/open-instruct). Stretnutie 5.2.2025 From 5b740f9861fce25cee5c0b2ee48cd63cb1c9740d Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Feb 2025 13:01:26 +0000 Subject: [PATCH 07/37] Update pages/students/2021/artur_hyrenko/README.md --- pages/students/2021/artur_hyrenko/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2021/artur_hyrenko/README.md b/pages/students/2021/artur_hyrenko/README.md index e97ea996..acb240fd 100644 --- a/pages/students/2021/artur_hyrenko/README.md +++ b/pages/students/2021/artur_hyrenko/README.md @@ -25,7 +25,7 @@ Stav: Úlohy: - Pokračujte v štúdiu. -- Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . Urobte si poznámky. Zistite aké jazykové modely majp podporu slovenského jazyka. Zistite ako sa vyhodnocuje bias v jazykových modelov. Zistitie, aké podobné množiny existujú pre iné jazyky. +- Pozrite sa na článok a dataset https://github.com/kinit-sk/gest . Urobte si poznámky. Zistite aké jazykové modely majú podporu slovenského jazyka. Zistite ako sa vyhodnocuje bias v jazykových modelov. Zistite, aké podobné množiny existujú pre iné jazyky. Zásobník úloh: From c42ea60e85cc3d571dd3118e4ee3efac2577bb28 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 7 Mar 2025 10:51:41 +0000 Subject: [PATCH 08/37] Update pages/students/2022/valerii_kutsenko/README.md --- pages/students/2022/valerii_kutsenko/README.md | 9 +++++++++ 1 file changed, 9 insertions(+) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 976d5d8f..26d6a0f5 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -35,6 +35,15 @@ Ako na to: - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom. - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. +Stretnutie 7.3.2025 + +Stav: + +- Vytvorený skkript pre prípravu nového generovaného korpusu. Obsahuje kontext, otázku aj odpoveď. Zatiaľ nevie vyznačiť odpoveĎ v kontexte. +- Vygenerované korpusy otázok a odpovedí pre SKWIKI a prokuratúru. +- Natrénovaný model pre QA na základe SKWIKI generovaných dát - model slovak T5 base. + + Stretnutie 25.2. Stav: From bd92534fddcc2a0ac43767038d5cce261fda0304 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 7 Mar 2025 10:59:44 +0000 Subject: [PATCH 09/37] Update pages/students/2022/valerii_kutsenko/README.md --- pages/students/2022/valerii_kutsenko/README.md | 11 ++++++++++- 1 file changed, 10 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 26d6a0f5..b53e69cc 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -41,8 +41,17 @@ Stav: - Vytvorený skkript pre prípravu nového generovaného korpusu. Obsahuje kontext, otázku aj odpoveď. Zatiaľ nevie vyznačiť odpoveĎ v kontexte. - Vygenerované korpusy otázok a odpovedí pre SKWIKI a prokuratúru. -- Natrénovaný model pre QA na základe SKWIKI generovaných dát - model slovak T5 base. +- Natrénovaný model pre QA na základe SKWIKI generovaných dát - model slovak T5 base. Augmntovaná množina má zatiaľ 30k otázok. +- Vyzerá to tak, že model s augmentovanými dátami je o dosť lepší. Je to naozaj dobre? +Úlohy: + +- Overiť či generované množina nie je príliš podobná overovacej. +- Pokračujte v písaní práce , opíšte experimenty, vypracujte tabuľky. + +Zásobník úloh: + +- Publikovať na konferencii. Stretnutie 25.2. From 9f018ce8c7bb06050c24da4e7154a17472bd6ab7 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 7 Mar 2025 11:07:43 +0000 Subject: [PATCH 10/37] Update pages/students/2022/valerii_kutsenko/README.md --- pages/students/2022/valerii_kutsenko/README.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index b53e69cc..8cb569bc 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -48,6 +48,9 @@ Stav: - Overiť či generované množina nie je príliš podobná overovacej. - Pokračujte v písaní práce , opíšte experimenty, vypracujte tabuľky. +- Pozrite sa na článok O. Megela: Fine-Tuning and Evaluation of Question Generation for Slovak Language +- Pre porovnanie vyhodnotte modely sami (slovak-t5-base), dotrénujute na SKQUAD-train. Vyhodnocujete stále na test časti. POrovnajte s viacerými augmentovanými dátami. V niekroých testoch primiešajte aj skquad train. + Zásobník úloh: From 20cc4f586f6fbdc32912b6296f4ddd782653fd34 Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 10 Mar 2025 13:37:39 +0000 Subject: [PATCH 11/37] Update pages/students/2021/matej_scislak/README.md --- pages/students/2021/matej_scislak/README.md | 21 +++++++++++++++++++++ 1 file changed, 21 insertions(+) diff --git a/pages/students/2021/matej_scislak/README.md b/pages/students/2021/matej_scislak/README.md index 1388c68b..95fa5445 100644 --- a/pages/students/2021/matej_scislak/README.md +++ b/pages/students/2021/matej_scislak/README.md @@ -24,6 +24,27 @@ Príprava: - Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting. - Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. +# Diplomová práca 2026 + +Ciele: + +- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac +, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov. +- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému. + +Stretnutie 10.3.2025 + +Úlohy: + +- Preštudovať - ako zostaviť RAG systém pomocou LangChain +- Zistiť ako fungujú agentové systémy na báze LLM - React. A volanie "nástrojov" function calling pomocou LLM. +- Vytvoriť databázu právnych informácií - texty zákonov, vyhlášok a rozsudkov spolu s metainformáciami. Vedúci pridelí prístup na QUADRO. (úloha Šarišský) +- Vytvoriť RAG systém pre spracovanie tejto databázy. Inšpirácia prácou Valerii Kutsenko, Yevhenii Leonov, [Oleh Poiasnik](/students/2022/oleh_poiasnik). Môžete sa inšpirovať [GIT BP Poiasnik](https://git.kemt.fei.tuke.sk/op405wm/Bakalarska_praca) (úloha Ščišľak) +- Vyhľadať na internete množinu vzorových právnych otázok a vyhodnotiť systém (Šarišský) + + + + # Bakalárska práca 2024 From e9527b1e72c04429eefd2af6a612fdb02c135eb5 Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 10 Mar 2025 13:43:58 +0000 Subject: [PATCH 12/37] Update pages/students/2021/martin_sarissky/README.md --- pages/students/2021/martin_sarissky/README.md | 23 +++++++++++++++++++ 1 file changed, 23 insertions(+) diff --git a/pages/students/2021/martin_sarissky/README.md b/pages/students/2021/martin_sarissky/README.md index 30fcd0a4..3043e047 100644 --- a/pages/students/2021/martin_sarissky/README.md +++ b/pages/students/2021/martin_sarissky/README.md @@ -11,8 +11,12 @@ rok začiatku štúdia: 2021 # Diplomová praca 2026 + Ciele: +- Vytvoriť systém pre spracovanie právnych informácií. Systém by mal vedieť vyhľadávať v rozsudkoch, zákonoch a vyhláškac +, odpovedať na otázky a sumarizovať dokumenty. Je možné , že riešenie úlohy si vyžiada viac krokov. +- Vytvoriť sadu vzorových úloh pre vyhodnotenie takéhoto systému. - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. Príprava: @@ -28,6 +32,25 @@ Príprava: +Stretnutie 10.3.2025 + +Úlohy: + +- Preštudovať - ako zostaviť RAG systém pomocou LangChain +- Zistiť ako fungujú agentové systémy na báze LLM - React. A volanie "nástrojov" function calling pomocou LLM. +- Vytvoriť RAG systém pre spracovanie tejto databázy. Pozrite si: Inšpirácia prácou Valerii Kutsenko, Yevhenii Leonov, [Oleh Poiasnik](/students/2022/oleh_poiasnik). Môžete sa inšpirovať [GIT BP Poiasnik](https://git.kemt.fei.tuke.sk/op405wm/Bakalarska_praca) (úloha Ščišľak) +- Vytvoriť databázu právnych informácií - texty zákonov, vyhlášok a rozsudkov spolu s metainformáciami. Vedúci pridelí prístup na QUADRO. (úloha Šarišský) +- Získajte prístup na QUADRO. V adresári /mnt/sharedhome/hladek/corpora/slovak_law/ sú dáta. Dáta premente do JSON. +Extrahujte text, vytiahnite metainformácie. Na extrakciu textu využite vhodnú knižnicu. Napr. Apache TIKA. + +Zásobník úloh: + +- Dáta sa vložia do databázy a zaindexujú vhodným SBERT modelom. +- Vyhľadať na internete množinu vzorových právnych otázok a vyhodnotiť systém (Šarišský) + + + + # Bakalárska práca 2024 From ad7fa40e1b571aaf32cccd689ec7d1acf6af29fe Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 10 Mar 2025 13:48:00 +0000 Subject: [PATCH 13/37] Update pages/students/2021/martin_sarissky/README.md --- pages/students/2021/martin_sarissky/README.md | 8 +++++++- 1 file changed, 7 insertions(+), 1 deletion(-) diff --git a/pages/students/2021/martin_sarissky/README.md b/pages/students/2021/martin_sarissky/README.md index 3043e047..903608fe 100644 --- a/pages/students/2021/martin_sarissky/README.md +++ b/pages/students/2021/martin_sarissky/README.md @@ -31,7 +31,6 @@ Príprava: - Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. - Stretnutie 10.3.2025 Úlohy: @@ -43,6 +42,13 @@ Stretnutie 10.3.2025 - Získajte prístup na QUADRO. V adresári /mnt/sharedhome/hladek/corpora/slovak_law/ sú dáta. Dáta premente do JSON. Extrahujte text, vytiahnite metainformácie. Na extrakciu textu využite vhodnú knižnicu. Napr. Apache TIKA. +Myšlienkový postup pre ZP: + +1. Zadefinujete úlohu a pojmy. +2. Vysvetlíte, ako sa táto úloha rieši vo svete. +3. Napíšete, ako ste túto plohu riešlili Vy a prečo. +4. Vyhodnottíte Vaše riešenie. Porováte výsledky so svetom a identifikujete miesta na zlepšenie. + Zásobník úloh: - Dáta sa vložia do databázy a zaindexujú vhodným SBERT modelom. From 98cecab906fa37dd337e871e7886fc44e9c259db Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 10 Mar 2025 13:57:50 +0000 Subject: [PATCH 14/37] Update pages/students/2019/filip_tomas/README.md --- pages/students/2019/filip_tomas/README.md | 9 +++++++-- 1 file changed, 7 insertions(+), 2 deletions(-) diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index deb29087..0b955604 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -28,6 +28,12 @@ Ciel: Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko +Stretnutie 10.3.2025 + +Stav: + +- Zaindexovaná slovenská Wikipédia na servri QUADRO. Trvalo to niekoľko hodín na jednej karte - SlovakBERT. + Stretnutie 21.2.2025 @@ -37,7 +43,6 @@ Stav: - Treba reštartovať RPI Klaster. - Stretnutie 17.1.2025 Stav: @@ -72,7 +77,7 @@ Stav: - Skripty aj konfiguráky dávajte na GIT. - Urobte skripty pre "prípravu" klastra. -- Urobte skripty pre nasadenie Mulvus na Klaster. +- Urobte skripty pre nasadenie Milvus na Klaster. - Pokračujte v písaní práce. From f80c8da94346935d55dfb498aedab6cc66c2d76a Mon Sep 17 00:00:00 2001 From: dano Date: Mon, 10 Mar 2025 13:59:17 +0000 Subject: [PATCH 15/37] Update pages/students/2019/filip_tomas/README.md --- pages/students/2019/filip_tomas/README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index 0b955604..2f907dcf 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -33,7 +33,8 @@ Stretnutie 10.3.2025 Stav: - Zaindexovaná slovenská Wikipédia na servri QUADRO. Trvalo to niekoľko hodín na jednej karte - SlovakBERT. - +- Práca na texte. +- RPI už funguje (2x reštart, problém s káblom). Stretnutie 21.2.2025 From f88ff4a5200692389ffd5479fa0b64dde295a379 Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 11 Mar 2025 14:38:16 +0000 Subject: [PATCH 16/37] Update pages/students/2021/nikita_bodnar/README.md --- pages/students/2021/nikita_bodnar/README.md | 19 ++++++++++++++----- 1 file changed, 14 insertions(+), 5 deletions(-) diff --git a/pages/students/2021/nikita_bodnar/README.md b/pages/students/2021/nikita_bodnar/README.md index b02ef02a..b5a0be3a 100644 --- a/pages/students/2021/nikita_bodnar/README.md +++ b/pages/students/2021/nikita_bodnar/README.md @@ -18,18 +18,27 @@ Zadanie: 2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu. 3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia. +Stretnutie 11.3. + +Stav: + +- Vypracované experimenty, zatiaľ na dosť krátkom texte. +- Práca na texte BP. + +Stretnutie: + Stav: - Vybratá množina c4 - Vyhodnotenie SlovakBERT, mBERT a Roberta Base pre EN. -- Naprogramované úloha doplnenie interpunkcie. Kódy sú na GITE. +- Naprogramované úloha doplnenie interpunkcie. Kódy sú na GITE. Úlohy: -- Vyberte slovenské texty z množiny mC4. Na vybranom texte zopakujte experimenty. -- Doplnte ďalšie modely typu BERT s podporou slovenčiny. Modely vo veľkosti BASE: Fernet, HPLT, xlm-r, mdeberta, distilmbert -- Vypracujte tabuľky s výsledkami experimentov. -- Do práce opíšte experimenty. +- [ ] Vyberte slovenské texty z množiny mC4. Na vybranom texte zopakujte experimenty. +- [x] Doplnte ďalšie modely typu BERT s podporou slovenčiny. Modely vo veľkosti BASE: Fernet, HPLT, xlm-r, mdeberta, distilmbert +- [x] Vypracujte tabuľky s výsledkami experimentov. +- [-] Do práce opíšte experimenty. Zásobník úloh: From e07aa0dafe63d3eadee65b7c54e3c8ac86b35d6d Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 11 Mar 2025 14:41:45 +0000 Subject: [PATCH 17/37] Update pages/students/2021/nikita_bodnar/README.md --- pages/students/2021/nikita_bodnar/README.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/pages/students/2021/nikita_bodnar/README.md b/pages/students/2021/nikita_bodnar/README.md index b5a0be3a..076e6f94 100644 --- a/pages/students/2021/nikita_bodnar/README.md +++ b/pages/students/2021/nikita_bodnar/README.md @@ -25,6 +25,11 @@ Stav: - Vypracované experimenty, zatiaľ na dosť krátkom texte. - Práca na texte BP. +Úlohy: + +- Na experimenty použite text z Wikipedia Dejiny Košic https://sk.wikipedia.org/wiki/Dejiny_Ko%C5%A1%C3%ADc + + Stretnutie: Stav: From 7abb6db770de90b2eb1c87209eedea9f50700d39 Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 11 Mar 2025 14:48:26 +0000 Subject: [PATCH 18/37] Update pages/students/2021/nikita_bodnar/README.md --- pages/students/2021/nikita_bodnar/README.md | 9 ++++++--- 1 file changed, 6 insertions(+), 3 deletions(-) diff --git a/pages/students/2021/nikita_bodnar/README.md b/pages/students/2021/nikita_bodnar/README.md index 076e6f94..fa4bc05d 100644 --- a/pages/students/2021/nikita_bodnar/README.md +++ b/pages/students/2021/nikita_bodnar/README.md @@ -22,13 +22,16 @@ Stretnutie 11.3. Stav: -- Vypracované experimenty, zatiaľ na dosť krátkom texte. -- Práca na texte BP. +- Vypracované experimenty pre obnovu interpunkcie, zatiaľ na dosť krátkom texte. Výsledky sú v nejakej prezentácii. +- Práca na texte BP ??? Úlohy: - Na experimenty použite text z Wikipedia Dejiny Košic https://sk.wikipedia.org/wiki/Dejiny_Ko%C5%A1%C3%ADc - +- Do práce napíšte, že používate metódu "Zero Shot" - bez dotrénovania. Porovnajte túto metódu sFew Shot a SFT (Supervised Finetuning). +- Do prehľadu doplnte odkazy na odborné články - nájdete ich na Google Scholar. +- Čím skôr odovzdajte text BP pre získanie spätnej väzby +- Nové Kódy pre experimenty nahrajte na GIT. Stretnutie: From 364539af82f1ac4bcd2e5437c1b681f312a159e4 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 21 Mar 2025 09:08:18 +0000 Subject: [PATCH 19/37] Update pages/students/2022/valerii_kutsenko/README.md --- pages/students/2022/valerii_kutsenko/README.md | 16 ++++++++++++++++ 1 file changed, 16 insertions(+) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 8cb569bc..4e8c9506 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -34,6 +34,22 @@ Ako na to: - Natrénujte generatívny model pre generovanie otázok. Použite existujúci skript a množinu SKQUAD. - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom. - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. + +Stretnutie: + +Stav: + +- Urobené porovnanie vplyvu agmentovaných dát na question answering. +- Rozpísaná práca + +Úlohy: + +- Pokračujte v písaní. Doplne text o definícii úlohy, question generation, podrobnosti o experimnentoch, podrobnosti o procese generovania množiny QA. + +Zásobník úloh: + +- Doplniť experimenty s inými modelmi (Slovak Mistral). + Stretnutie 7.3.2025 From e73574c32e517d2e0466b8a8489a0c902a2bfb55 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 21 Mar 2025 09:09:02 +0000 Subject: [PATCH 20/37] Update pages/students/2022/valerii_kutsenko/README.md --- pages/students/2022/valerii_kutsenko/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 4e8c9506..f96cd51c 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -45,6 +45,7 @@ Stav: Úlohy: - Pokračujte v písaní. Doplne text o definícii úlohy, question generation, podrobnosti o experimnentoch, podrobnosti o procese generovania množiny QA. +- Najnovšie skripty dajte na GIT. Zásobník úloh: From 450a36cf2e8f6dd227a9ce3e34d4d7424c73c407 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 21 Mar 2025 09:12:02 +0000 Subject: [PATCH 21/37] Update pages/students/2022/vladyslav_yanchenko/README.md --- pages/students/2022/vladyslav_yanchenko/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index aba327c4..23a30c9e 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -40,7 +40,7 @@ Stav: Úlohy: - Zjednotiť zápis slova klaud -- Opraviť preklapy +- Opraviť preklepy - Opraviť šablónu From ac5e03a25bfbcce5de4d0c25300458abcdb5dce8 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 21 Mar 2025 09:14:10 +0000 Subject: [PATCH 22/37] Update pages/students/2022/vladyslav_yanchenko/README.md --- pages/students/2022/vladyslav_yanchenko/README.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index 23a30c9e..99a73dbe 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -30,6 +30,14 @@ Nápad: - Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD. +Stretnutie 21.3.2025 + +Stav: + +- Práca na obsahu BP. +- Pridaný Ingress do aplikácie. +- Pridaný GMETER do monitorovania klastra. + Stretnutie 27.2.2025 Stav: From 3197604d2954e76b993ac2f69c83299cf4ee9ed1 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 21 Mar 2025 09:50:15 +0000 Subject: [PATCH 23/37] Update pages/students/2022/vladyslav_yanchenko/README.md --- pages/students/2022/vladyslav_yanchenko/README.md | 8 +++++++- 1 file changed, 7 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index 99a73dbe..777e1a57 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -34,10 +34,16 @@ Stretnutie 21.3.2025 Stav: -- Práca na obsahu BP. +- Práca na obsahu BP. Stav zatiaľ nie je uspokojivý. - Pridaný Ingress do aplikácie. - Pridaný GMETER do monitorovania klastra. +Úlohy: + +- Zlepšite text práce. Postupujte od všeobecného ku konkrétnemu. Spojte súvisiace časti. Definujte úlohu, vysvetlite základné pojmy. Predstavte Vaše riešenie. V experimentoch vyhodnotte Vaše riešenie a napíšte záver - nápady na zlepšenie. +- Použite generatívny model na zlepšenie gramaticky a štylistiky. +- Dbajte aby práca spĺňala zadanie. + Stretnutie 27.2.2025 Stav: From d52a81eff349e64686a8b620dfe71f9e6f74f536 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 21 Mar 2025 09:53:43 +0000 Subject: [PATCH 24/37] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 10 ++++++++-- 1 file changed, 8 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index 89f2135e..f2191ab2 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -29,6 +29,12 @@ Návrh na zadanie bakalárskej práce: 4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít. 5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomenovaných entít. +Stretnutie 21.3.2025 + +Stav: + +- Zlepšenie procesu trénovania modelu. + Stretnutie 20.12.2024 Stav: @@ -41,8 +47,8 @@ Stav: - Pripravte si prezentáciu. - Textu dajte na moodle, skripty dajte na git. -- Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články. -- Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky. +- Pokračujte v písaní. Doplňte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplôte časť o vyhodnotení - precision,recall, F1. Doplňte odkazy na dátové množiny. Používajte odkazy na vedecké články. +- Zlepšite presnosť Vášho modelu. Do BP napíšte priebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky. Zásobník úloh: From 56658725e5c5fec8e45883912f92f8978741b3ac Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 21 Mar 2025 09:56:34 +0000 Subject: [PATCH 25/37] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 8 +++++--- 1 file changed, 5 insertions(+), 3 deletions(-) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index f2191ab2..bceb8e67 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -33,7 +33,9 @@ Stretnutie 21.3.2025 Stav: -- Zlepšenie procesu trénovania modelu. +- Zlepšenie procesu trénovania modelu - viac epoch, použitie LORA. +- Použitie SlovakBERT a WikiANN dataset. +- Urobené Web DEMO. Stretnutie 20.12.2024 @@ -76,10 +78,10 @@ Stav: Zásobník úloh: -- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný. +- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný. - Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. - Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom. -- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte. +- Vykonané experimenty slovne opíšte a výsledky zapíšte do tabuliek. Výsledky slovne okomentujte. Stretnutie 20.5.20204 From 7a393118ca73c86d52f095265007c2f7a29b1bcb Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 21 Mar 2025 10:08:09 +0000 Subject: [PATCH 26/37] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index bceb8e67..f7ed96b0 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -36,6 +36,18 @@ Stav: - Zlepšenie procesu trénovania modelu - viac epoch, použitie LORA. - Použitie SlovakBERT a WikiANN dataset. - Urobené Web DEMO. +- Text nie je pokrok. + +Úlohy: + +- Zdrojové texty pre trénovnanie a pre demo dajte na KEMT GIT. +- Zlepšite výsledky trénovania. Skúste iné parametre LR. Skúste inú dátovú množinu. Skúste spojiť iaceré dátové množiny do jednej. +- Porovnajte viacero modelov. ModernBERT, mbert, hplt bert base, slovak roberta, +- Pracujte na texte, hlavne na praktickej časti. + +Zásobník úloh: + +- Vyskúšajte generatívne modely Slovak T5 base, Slovak Mistral 7B. Stretnutie 20.12.2024 From 5d7bad168c60e0484da4ce4f4fa185c7ecc92c94 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 21 Mar 2025 10:10:01 +0000 Subject: [PATCH 27/37] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index f7ed96b0..7fc3e272 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -42,7 +42,7 @@ Stav: - Zdrojové texty pre trénovnanie a pre demo dajte na KEMT GIT. - Zlepšite výsledky trénovania. Skúste iné parametre LR. Skúste inú dátovú množinu. Skúste spojiť iaceré dátové množiny do jednej. -- Porovnajte viacero modelov. ModernBERT, mbert, hplt bert base, slovak roberta, +- Porovnajte viacero modelov. ModernBERT, mbert, hplt bert base, slovak roberta, Výsledky dajte do tabuľky. Opíšte postup experimenty. - Pracujte na texte, hlavne na praktickej časti. Zásobník úloh: From cfe5c5cd507752b416ae5816ad94931110f4b8c0 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 27 Mar 2025 12:44:14 +0000 Subject: [PATCH 28/37] Update pages/students/2019/filip_tomas/README.md --- pages/students/2019/filip_tomas/README.md | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index 2f907dcf..155051ad 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -14,6 +14,9 @@ DP sa prekladá na rok 2025 # Diplomová práca 2024 - 2025 + +Vektorové vyhľadávanie dokumentov v prostredí Kubernetes + Zadanie: 1. Napíšte prehľad metód vektorovej reprezentácie dokumentov pomocou neurónových sietí. @@ -28,6 +31,15 @@ Ciel: Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko +Stretnutie: + +Stav: +- Text je rozpísaný. + +Úlohy: + +- Zlepšiť štruktúru práce + Stretnutie 10.3.2025 Stav: From a38eb5ac3bcb469a4f8eecb2e4dffb2595a5eb9b Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 27 Mar 2025 14:33:08 +0000 Subject: [PATCH 29/37] Update pages/students/2021/nikita_bodnar/README.md --- pages/students/2021/nikita_bodnar/README.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/pages/students/2021/nikita_bodnar/README.md b/pages/students/2021/nikita_bodnar/README.md index fa4bc05d..ff25cf50 100644 --- a/pages/students/2021/nikita_bodnar/README.md +++ b/pages/students/2021/nikita_bodnar/README.md @@ -18,6 +18,12 @@ Zadanie: 2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu. 3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia. +Stretnutie 27.3. + +Stav: + +- Text je v lepšom stave. + Stretnutie 11.3. Stav: From a6b5be3ce82956ab8441b01fc3b8c931e66530c9 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Mar 2025 08:01:08 +0000 Subject: [PATCH 30/37] Update pages/students/2021/matej_novotny/README.md --- pages/students/2021/matej_novotny/README.md | 9 +++++++-- 1 file changed, 7 insertions(+), 2 deletions(-) diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index 63c08d87..2426326b 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -23,8 +23,8 @@ Stretnutie: Úlohy: - Naučte sa Python. Nainštalujte si prostredie Anaconda. -- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub- prejdite si jeden alebo 2 tutoriály na klasifikáciu textu. -- Zistitee čo je to jazykový model a urobte si poznámky. +- Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu. +- Zistite čo je to jazykový model a urobte si poznámky. - Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky. - Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky. - Zistite, čo je to korpus textov mc4. @@ -35,3 +35,8 @@ Zásobník úloh: - Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu. - Natrénujte neurónovú sieť pre rozlišovanie druhov textov. + +Stav: + +- Naštudovaný Python, neurónové siete čiastočne. + From 887f29c0638578d605d2676f370df69b714e375f Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Mar 2025 08:11:14 +0000 Subject: [PATCH 31/37] Update pages/students/2021/matej_novotny/README.md --- pages/students/2021/matej_novotny/README.md | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index 2426326b..26cc4fc5 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -40,3 +40,15 @@ Stav: - Naštudovaný Python, neurónové siete čiastočne. +Úlohy: + +- Pozrite si dataset https://huggingface.co/datasets/allenai/c4 +- Pozite si knihu https://d2l.ai/ +- Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály. +- Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer. + +Zásobník úloh: + +- definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady. +- Príklad kategórie: Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah, + From d5ef37b40402c3eaf24f412f72a4716549a1383b Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Mar 2025 08:12:29 +0000 Subject: [PATCH 32/37] Update pages/students/2021/matej_novotny/README.md --- pages/students/2021/matej_novotny/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2021/matej_novotny/README.md b/pages/students/2021/matej_novotny/README.md index 26cc4fc5..177547ca 100644 --- a/pages/students/2021/matej_novotny/README.md +++ b/pages/students/2021/matej_novotny/README.md @@ -35,6 +35,7 @@ Zásobník úloh: - Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu. - Natrénujte neurónovú sieť pre rozlišovanie druhov textov. +Stretnutie 28.3.2025 Stav: From 03d11d15a68667f8015279828fbfb426952164f2 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Mar 2025 09:08:24 +0000 Subject: [PATCH 33/37] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index c4c2ce82..2585ea13 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -36,6 +36,18 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation +Stretnutie 28.3.2025 + +Stav: + +- Agent funguje super. +- Kódy sú na osobnom githube + +Úlohy: + +- Kódy dajte na KEMT GIT. +- Dopracujte Docker Compose. + 13.2.2025 Stav: From 351210cfc792ce595f1719f2cb7b323f986afc9d Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Mar 2025 09:09:21 +0000 Subject: [PATCH 34/37] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 2585ea13..eb9b3805 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -47,6 +47,9 @@ Stav: - Kódy dajte na KEMT GIT. - Dopracujte Docker Compose. +- Zverejnite demo, napr. pomocou TUKE Cloud. + + 13.2.2025 From 691d62f3aedfe968546485bd51b3aa65b1dfc819 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Mar 2025 09:36:11 +0000 Subject: [PATCH 35/37] Update pages/students/2022/tetiana_mohorian/README.md --- .../students/2022/tetiana_mohorian/README.md | 31 ++++++++++++++++++- 1 file changed, 30 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/tetiana_mohorian/README.md b/pages/students/2022/tetiana_mohorian/README.md index 797b05c9..3abe06b6 100644 --- a/pages/students/2022/tetiana_mohorian/README.md +++ b/pages/students/2022/tetiana_mohorian/README.md @@ -36,6 +36,35 @@ Návrh na tému: - Na adaptáciu použite "prompting" a "LORA". - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). +Stretnutie 28.3. + + +Stav: + +- Práca na stránke, frontend backend +- Práca na Telegram bot, vyhodnotenie s priateľmi. +- Few Shot Learning: 0.7 F1. Slovak T5-small model. +- Práca na lm-eval-harness, zatiaľ sa to nepodarilo. Task zatiaľ nefunguje, framework funguje. +- Pripravená aj TK Inter aplikácia. +- Pripravte webovú aplikáciu na zverejnenie pomocou Docker. + + +Úlohy: + +- Vedúci môže pomôcť s Task na LM E H - pripomente mi to ďalší týždeň. +- Využite iný model. Napr. Slovak T5 large alebo base. Alebo Slovak MIstral. +- Updatujte kódy na GITE. +- Do práce môžete dať screenshoty z Vašej aplikácie + + +Zásobník úloh: + +- Zverejnite Vašu aplikáciu napr. pomocou TUKE Cloud. + + + + + Stretnutie 13.2.2025 Stav: @@ -49,7 +78,7 @@ Stav: Úlohy: -- Pokračujte v písaní. Je potrebné zlepšiť jazyk, vyradiť príliš všeobecné časti, pridať odkazy na odbornú literatúru, zrozumiteľne opísať experimnty a výsledky. +- Pokračujte v písaní. Je potrebné zlepšiť jazyk, vyradiť príliš všeobecné časti, pridať odkazy na odbornú literatúru, zrozumiteľne opísať experimenty a výsledky. - Pripravte experiment s "few shot" a veľkým jazykovým modelom. Môžete použiť lm-eval-harness. - Skripty dajte na kemt git. From b59d4a73f269534cb15ccef7fe234d347eac4c57 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Mar 2025 09:52:09 +0000 Subject: [PATCH 36/37] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 19 +++++++++++++++++-- 1 file changed, 17 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index 7fc3e272..b8257cf1 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -29,6 +29,21 @@ Návrh na zadanie bakalárskej práce: 4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít. 5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomenovaných entít. +Stretnutie 28.3.2025 + +Stav: + +- spojené datasety: wikiann a conll2003. Pomohlo to. Dosiahli sme 0.9 na SLovak BERT. + +Úlohy: + +- Skúste zlepšiť model. +- Zverejniť model. V spolupráci s vedúcim. Ku modelu pripravte krátky opis ako bol trénovaný a aké výsledky dosiahol. + +Zásobník úloh: + +- Pridajte ďalšie dáta a pretrénujte model. V prípade potreby dostanete prístup na školský server. + Stretnutie 21.3.2025 Stav: @@ -41,8 +56,8 @@ Stav: Úlohy: - Zdrojové texty pre trénovnanie a pre demo dajte na KEMT GIT. -- Zlepšite výsledky trénovania. Skúste iné parametre LR. Skúste inú dátovú množinu. Skúste spojiť iaceré dátové množiny do jednej. -- Porovnajte viacero modelov. ModernBERT, mbert, hplt bert base, slovak roberta, Výsledky dajte do tabuľky. Opíšte postup experimenty. +- Zlepšite výsledky trénovania. Skúste iné parametre LR. Skúste inú dátovú množinu. Skúste spojiť viaceré dátové množiny do jednej. +- Porovnajte viacero modelov. ModernBERT, mbert, hplt bert base, slovak roberta, Výsledky dajte do tabuľky. Opíšte postup experimentov. - Pracujte na texte, hlavne na praktickej časti. Zásobník úloh: From 216bd5b5fae040d8b8400ff9bbde27a45ce62407 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Mar 2025 10:16:06 +0000 Subject: [PATCH 37/37] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index b8257cf1..a6cf87d1 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -39,6 +39,7 @@ Stav: - Skúste zlepšiť model. - Zverejniť model. V spolupráci s vedúcim. Ku modelu pripravte krátky opis ako bol trénovaný a aké výsledky dosiahol. +- Definujte a zlepšite štruktúru práce. Práca postuypuije od všeobecného ku konkrétnemu. Kapitoly by mali byť konzistentné s názvom. Prezentujte ako ste splnili zadanie. Zlepšite jazykovú úroveň práce. Dôsledne používajte jednotnú terminológiu. Zásobník úloh: