Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki

2025-01-21 13:05:18 +01:00 · 2025-01-21 13:05:18 +01:00 · 98c2db90c6
commit 98c2db90c6
parent 4fbea422ab 5da7a914bb
14 changed files with 531 additions and 39 deletions
--- a/pages/students/2019/filip_tomas/README.md
+++ b/pages/students/2019/filip_tomas/README.md
@ -26,7 +26,61 @@ Ciel:

 - Vytvorte distribuovaný vyhľadávací index pre dáta zo slovenského internetu.  Cieľom je vytvoriť vyhľadávanie na (skoro) celom slovenskom internete.

-Spolupráca Michal Stromko, Kristián Sopkovič.
+Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko
+
+Stretnutie 17.1.2025
+
+Stav:
+
+- Pokus o indexovanie na Quadre, ale treba nainštalovať Anaconda pre závislosti.
+- Prezentácia.
+
+
+
+Stretnutie 16.12.
+
+- Vytvorený indexer
+- Vytvorené rozhranie vyhľadávania
+- Deployment Milvus.
+- Zatiaľ je indexovanie pomalé na domácej karte.
+
+Úlohy:
+
+- Dajte kódy na GIT.
+- Vyskúšajte indexovanie na servri QUADRO
+- Pracujte na textovej časti.
+
+
+Stretnutie 22.11.
+
+Stav:
+
+- Použitý HELM chart pre Milvus. Sú potrebné úpravy konfigurácie pre ARM - vymeniť Docker IMAGES.
+- PV je vyriešené.
+
+Úlohy:
+
+- Skripty aj konfiguráky dávajte na GIT.
+- Urobte skripty pre "prípravu" klastra. 
+- Urobte skripty pre nasadenie Mulvus na Klaster.
+- Pokračujte v písaní práce.
+
+
+Zásobík úloh:
+
+- Keď to bude hotové, vyskúšajte skripty na DeskPI Super6C Klastri, p. Huzenko.
+- Urobte benchamark na Milvus deployment.
+- Naštudujte si Ansible a urobíte Ansible konfiguráciu microk8s.
+
+
+Stretnutie 7.11.2024
+
+Stav:
+
+- Riešenie problémov súvisiacich s PersistentVolume
+- Práca na texte
+
+

 Stretnutie 15.10.2024

--- a/pages/students/2020/kamil_tomcufcik/README.md
+++ b/pages/students/2020/kamil_tomcufcik/README.md
@ -15,8 +15,48 @@ Ciel:

 Overiť a zlepšiť možnosti generovania jednotkových testov

+Stretnutie 12.12.2024

-Stretnutie online 5.2.2023:
+Stav:
+
+- Metrika Pass@K sa používa na vyhodnotenie generovaného kódu. Meria, koľko automatických textov bolo splnených. Používa sa aj BLEU, verzia CodeBLEU. CodeJudge.
+- Na testovanie generovaných testov sa používajú: vykonanie produkčného kódu, pokrytie testov, mutácie kódu, statická analýza generovaného kódu.
+- Vyskúšaný model polycoder (na C),codeparrot (na python) na kaggle. Code T5 zatiaľ nie je vyskúšaný. 
+- Copilot by mal byť pre študentov zadarmo. Študneti majú aj Azure kredity.
+
+Úlohy:
+
+- Pokračujte v otvorených úlohách.
+- Pripravte sa na predobhajobu - prezentácia s výsledkami. 
+
+Zásobník úloh:
+
+- Pomocou vybranej množiny porovnajte vybrané modely pre generovanie kódu.
+
+Stretnutie 14.11. 2924
+
+Stav:
+
+- Vyhľadané modely na generovanie kódu. Nie sú vyskúšané. Codex, CodeParrot a Incoder. Na unittesty CodeT5 a AthenaTest.
+- Rozčítané knihy podľa pokynov.
+
+Úlohy:
+
+Zistite odpovede na tieto otázky:
+- [x] Ako zistíme, že vygenerovaný kód je dobrý.
+- [x] Ako zistíme, že vygenerovaný test vyhovuje špecifikácii?
+- [-] Vypracujte písomný prehľad modelov pre generovanie kódu. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Napíšte na akej neurónovej sieti sú založené, aké sú veľk=, aké jazyky podporujú, aké výsledky dosahujú. Použite odborné články. Odborné články nájdete na google scholar alebo scopus.
+- [-] Pripravte vzorovú dátovú množinu. Hotové testy, implementácie aj dokumentáciu. Možno vybrať existujúci open source projekt alebo hotovú dátovú množinu. 
+- [-] Vyskúšajte niekoľko jazykových modelov pre generovanie kódu aj generovanie testov. 
+- [ ] Do diplomovej práce vypracujte experimenty kde vyhodnotíte jazykové modely pre generovanie testov v rôznych prostrediach. 
+
+Zásobník úloh:
+
+- Dotrénujte model pre lepšie generovansie testov. 
+
+
+
+Stretnutie online 5.2.2024:

 Úlohy:

--- a/pages/students/2020/pavol_hudak/README.md
+++ b/pages/students/2020/pavol_hudak/README.md
@ -15,9 +15,25 @@ Ciel:

 - Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
 - Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
- Strjový preklad vybranej množiny instruct.
+- Strojový preklad vybranej množiny instruct.

+Stretnutie 14.11.2024

+Stav:
+
+- Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle.
+- Pokračuje písanie.
+
+Úlohy:
+
+- Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup.
+- Pokračujte v púísaní
+- Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely.
+
+Zásobník úloh:
+ 
+- Dotrénujte aj iné modely a porovnajte výsledky.
+- Zverejnite dotrénovaný model alebo viac modelov  na HF HUB. využijeme TUKE-KEMT org. 


 Stretnutie 15.10.
--- a/pages/students/2021/martin_sarissky/README.md
+++ b/pages/students/2021/martin_sarissky/README.md
@ -2,13 +2,34 @@
 title: Martin Šarišský
 published: true
 taxonomy:
-    category: [vp2023,bp2024]
+    category: [vp2023,bp2024,dp2026]
    tag: [chatbot,rasa,dialog,nlp]
    author: Daniel Hladek
 ---

 rok začiatku štúdia: 2021

+# Diplomová praca 2026
+
+Ciele:
+
+- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
+
+Príprava:
+
+- Zopakujte si Python. 
+- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. 
+- Oboznámte sa s framewworkom LangChain. 
+- pozrite si LangChain Transformers Agents. 
+- Ako funguje FunctionCalling - AgentTools?. 
+- Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar.
+- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia.  Zisite čo je to "few shot" prompting.  
+- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
+
+
+
+
+
 # Bakalárska práca 2024


--- a/pages/students/2021/matej_scislak/README.md
+++ b/pages/students/2021/matej_scislak/README.md
@ -2,13 +2,30 @@
 title: Matej Ščišľak
 published: true
 taxonomy:
-    category: [bp2024]
+    category: [bp2024, dp2026]
    tag: [chatbot,rasa,dialog,nlp]
    author: Daniel Hladek
 ---

 rok začiatku štúdia: 2021

+Ciele:
+
+- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
+
+Príprava:
+
+- Zopakujte si Python. 
+- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. 
+- Oboznámte sa s framewworkom LangChain. 
+- pozrite si LangChain Transformers Agents. 
+- Ako funguje FunctionCalling - AgentTools?. 
+- Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar.
+- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia.  Zisite čo je to "few shot" prompting.  
+- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
+
+
+
 # Bakalárska práca 2024


--- a/pages/students/2021/nikita_bodnar/README.md
+++ b/pages/students/2021/nikita_bodnar/README.md
@ -10,6 +10,73 @@ taxonomy:

 rok začiatku štúdia: 2021

+# Bakalárska práca 2025
+
+Zadanie:
+
+1. Vypracujte prehľad neurónových sietí a metód na vykonávanie opravy textu. 
+2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu.
+3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia.
+
+Poznámky 21.1.2025
+
+Stav:
+
+- Napísané skripty pre vyhodnotneie "masked" language modeling.
+- Vyhodnotené modely SlovakBERT a multilingualbert BASE.
+
+Úlohy:
+
+- Vyberte vhodnú množinu slovenských textov.
+- Pripravte množinu pre úlohu detekcie chýbajúcej alebo nadbytočnej interpunkcie - (bodka, čiarka, otáznik, výkričník, dvojbodka). 
+- Pripravte množinu pre pre úlohu opravy uť identifikovaého preklepu.
+- Vyhodnotte viaceré modely.
+- Pokračujte v písaní práce podľa nového zadania.
+
+Zásobník úloh:
+
+- Využite modely SlovakT5 a ByT5.
+
+
+Stretnutie 17.12.
+
+
+Stav:
+
+- Práca na skriptoch, nainštalovaný Pytorch, transformers, fairseq, 
+- Skript na prípravu dát - spustený. 
+- chyba pri spustení trénovacieho skriptu - chýba executable.
+
+Úlohy:
+
+- ! Začnite pracovať na písomnej časti.
+- Nainštalujte si Marian NMT.
+- Vypýtajte si Marian Model na opravu od Ing. Maroš Harahus. 
+- Vyskúšajte ho a vyhodnotte pomocou metriky WER. Zistite si čo je to WER, napíšte to do práce
+- Nainštalujte si model ByT5 z knižnice HF Transformers. Zistie čo to je, napíšte to do práce. 
+- Vyskúšajte model ByT5 na korekciu textu. Vyhodnoote ho. 
+- Vyskúšajte model SlovakBERT na detekciu preklepov. Model určuje pravdepodobnosť každého slova vo vete. Model vie doplniť chýbajúce slovo, alebo najpravdepodobnejšie slovo. Zistite že ako, napíšte to do práce. 
+- Do práce doplnte odkazy na vedecké články. 
+
+
+Zásobník úloh:
+
+- Natrénujte model.
+
+Stav:
+
+- Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny.
+- Textová časť je neuspokojivá.
+
+Úlohy:
+
+- Naučte sa trénovať systém pre strojový preklad. 
+- Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký. 
+- Natrénujte a vyhodnotte model.
+- Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar.
+
+
+
 # Bakalárska práca 2024

 Korekcia textu pomocou neurónových sietí
@ -32,7 +99,7 @@ Stav:

 Úlohy:

- Natrénujte jednoduchý ľubovoľný  model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train
+- Natrénujte jednoduchý ľubovoľný  model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train.
 - Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho.
 - Pokračujte v písaní bakalárskej práce.

--- a/pages/students/2022/andrii_pervashov/README.md
+++ b/pages/students/2022/andrii_pervashov/README.md
@ -14,6 +14,7 @@ rok začiatku štúdia: 2022
 ## Bakalárska práca 2025


+
 Návrh na tému:

 Korekcia textu pomocou neurónových sietí
@ -22,6 +23,46 @@ Korekcia textu pomocou neurónových sietí
 -    Aplikujte existujúci model na opravu textu vo vybraných úlohách.
 -    Vyhodnnotte model pomocou overovacej množiny.

+Návrh na zadanie práce:
+
+1. Napíšte prehľad metód opravy textu pomcou neurónových modelov.
+2. Zostavte trénovací korpus a natrénujte vybraný model na úlohu opravy textu v slovenskom jazyku.
+3. Navrhnite experiment a vyhodnotte kvalitu natrénovaného neurónového modelu.
+4. Identifikujte možné zlepšenia navrhnutého modelu.
+
+Stretnutie 19.12.2024
+
+Stav:
+
+- Nové trénovanie Byt5 z mc4. Vyzerá, že to ide. Vlastný trénovací skript, skript od Ing. Harahusa.
+- Text prepísaný do Latex, WIP
+
+
+Stretnutie 22.11.2024
+
+Stav:
+
+- WikiEdits nefunguje. 
+- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky.
+- Na trénovanie sa používa mt5-large.
+- Konzultácia Ing. Harahusom PhD.
+- Trénovanie modelu.
+
+Úlohy:
+
+- Pokračujte v písaní podľa pokynov nižšie.
+- Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein.
+- Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base.
+- Pokračujte s "base modelmi".
+- Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný.  
+
+Zásobník úloh:
+
+- Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4.
+
+
+
+
 Stretnutie 3.10.2024

 Stav:
--- a/pages/students/2022/daniil_huzenko/README.md
+++ b/pages/students/2022/daniil_huzenko/README.md
@ -1,5 +1,5 @@
 ---
-title: Daaniil Huzenko
+title: Daniil Huzenko
 published: true
 taxonomy:
    category: [bp2025]
@ -18,6 +18,77 @@ Predbežný názov:

 Testovanie hybridného klaudu s využiťím kombinácie verejného a privátneho riešenia

+Cielom práce je vytvorenie vzelávacích materiálov o Kubernetes a funkčného prototypu privátneho klastra Kubernetes .
+
+Stetnutie 22.11.2024
+
+Stav:
+
+- Klaster funguje. Ku každému node je možné sa pripojiť cez SSH. 
+- Momentálne notebook slúži ako router. 
+- Práca na DNS MASQ prideľovanie IP adries z routra.
+- Microk8s funguje
+
+Úlohy:
+
+- Napíšte návod a skripty pre konfiguráciu routra pre K8s klastra SuperC.
+- Router by mal vedieť:
+   - prideliť IP adresu v privátnej podsieti pre všetky uzly klastra.
+   - mal by vedieť konfigurovať (resetovať) klaster pomocou Ansible.
+- Vyporacujte video a textový tutoriál k inštalácii klastra.
+- Skripty a návody dajte na GIT. Video nedávajte na GIT.  (dajte na Youtube).
+
+Zásobník úloh:
+
+- Router by mal slúžiť ako rozhranie medzi verejnou a súkromnou sieťou - mal by sprostredkovať služby Kubernetes. Dorobte na to skripty Ansible a K8s konfiguráciu - Ingress, Load Balancer, Dashboard.
+
+
+Stretnutie 14.11
+
+Stav:
+
+- 1 ks klastra je zmontovany
+
+Úlohy:
+
+- Napíšte o tom čo je to kontajnerizácia, čo je Kubernetes, stručne o Rpi CM4 a Super6C - opíšte HW.
+- Píšte o metódach orchestrácie. Čo je to a akými metódami sa to robí?
+- Napíšte o Ansible. Ako riadiť klaster pomocou Ansible?
+- Citujte knihy a odborné články. Nájdete to na google scholar.
+
+Zásobník úloh:
+
+- Pripravte skripty Ansible pre "setup" klastra
+- Pripravte skripty pre "reinstall" klastra poocou Ansible
+- Zistite ako funguje netboot na rpi, skúste reinstall cez networkboot.
+
+Stretnutie 12.11.2024
+
+Stav:
+
+- Písanie draftu BP
+- Vyskúšané tutoriály s Minikube.
+
+Úlohy:
+
+- Zmontujte Raspberry Pi klaster: 1x skrinka s príslušenstvom, 6x RPI Compute Module 4, 1 doska a zdroj SUper6C.
+- Urobte videoblog o tom ako zmontovať RPI klaster.  Akým jazykom? Po rusky alebo po slovensky? 
+- Zistite čo je to MicroK8s
+ - Pokračujte v písaní BP. Používajte citácie na odbornú literatúru ()knihy a odborné články. Do BP píšte aj o hardvéri ktorý ste dostali. Odborné články nájdete na google scholar.
+ - Prihláste sa na Azure KLaud.
+
+
+Zásobník úloh:
+
+- Oživte klaster a nainštalujte na neho MicroK8s. Inštaláciu urobte ľahko opakovateľnú pomocou skriptu.
+- Nainštalujte monitorovacie nástroje na klaster.
+- Urobte deployment aplikácie na privány klaster aj na verejnmý klaster (AKS).
+- Urobte druhý videoblog o inštalácii softvéru na náš klaster.
+- Napíšte textový blog o tom čo ste urobili - cieľ je poučiť a inšpirovať študentov.
+
+
+
+

 Stretnutie 4.10.2024

@ -28,7 +99,8 @@ Naštudovaný Kubernetes, nainštalované Minikube
 Úlohy:


- Napíšte draft BP. Napíšte čo je to Kuberntes a ako sa používa.čo je to kontajnerizácia
- Napíšte, aké nástroje sa používajú na monitoring klastra.
- Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ – Calico.
+- [x] Napíšte draft BP. Napíšte čo je to Kubernetes a ako sa používa.čo je to kontajnerizácia
+- [x] Napíšte, aké nástroje sa používajú na monitoring klastra.
+- [-] Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ – Calico.
+

--- a/pages/students/2022/oleh_poiasnik/README.md
+++ b/pages/students/2022/oleh_poiasnik/README.md
@ -29,13 +29,29 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí

 RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation

+8.11.2024
+
+Stav:
+
+- Modifikovaný frontend (Tailwind)
+- Vytvorený Docker Images, Elasticsearch databáza aj index.
+- Je aj skript na indexovanie.
+- Vyskúšaný Mistral Small a Mistral Large cez API-
+
+
+Úlohy:
+
+- Pracujte na texte, pošlite mi draft.
+- Pripojte sa na server quadro.kemt.fei.tuke.sk (cez ssh z tuke siete). Použite prostredie Anaconda.
+- Na inferenciu (beh modelu) vyskúšajte vllm. Alebo ollama alebo localai. Dobrý model pre slovenčinu je Qwen2.5  alebo slovak-t5-base. Na vektorvé vyhľadávnaie je zatiaľ najlepší model multilingual E5. Možno aj BGE - nie je overený.
+
 17.10.20204

 Stav:

 - Funguje web rozhranie aj vyhľadávanie.
 - Kódy sú na gite. Využíva sa Flask, Mistral API pre Mistral-Small (nebeží lokálne). Na vektory MiniLM2
- Napísané poznámky o praktickej časti.
+- Napísané poznámky o praktickej časti. 


 Úlohy
--- a/pages/students/2022/serhii_yemets/README.md
+++ b/pages/students/2022/serhii_yemets/README.md
@ -12,8 +12,6 @@ rok začiatku štúdia: 2022

 # Bakalárska práca 2025

-
-
 Cieľ:

 - Zlepšenie slovenského modelu  pre rozpoznávanie pomenovaných entít.
@ -23,6 +21,38 @@ Do budúcnosti:
 - Vypracovanie webového dema
 - Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).

+Návrh na zadanie bakalárskej práce:
+
+1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku.
+2. Napíšte prehľad existujúcich dátových množin, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít.
+3. Vyberte vhodný model a dátovú množinu a natrénujte  a vyhodnotte model.
+4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
+5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomentovaných entít.
+
+Stretnutie 20.12.2024
+
+Stav:
+
+- Splnené úlohy z posledného stetnutia
+- Text je v dobrom stave, treba ešte použiť šablónu.
+
+
+Úlohy:
+
+- Pripravte si prezentáciu.
+- Textu dajte na moodle, skripty dajte na git.
+- Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO  (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články.
+- Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.
+
+
+Zásobník úloh:
+
+- Zostavte webové demo
+- Pripravte experiment pre ukrajinský a ruský jazyk.
+- Priprave Dockerfile pre Vaše demo
+- Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty.
+
+
 Stretnutie 30.10.2024

 Stav:
@ -33,10 +63,10 @@ Stav:

 Úlohy:

- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
- Pokračujte v písaní BP.  Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
- Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification
+- [x] Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
+- [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
+- [x] Pokračujte v písaní BP.  Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
+- [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification

 Zásobník úloh:

--- a/pages/students/2022/tetiana_mohorian/README.md
+++ b/pages/students/2022/tetiana_mohorian/README.md
@ -27,6 +27,29 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.
 - Na adaptáciu použite "prompting" a "LORA".
 - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).

+Stretnutie 12.11.2024
+
+Stav:
+
+- Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky.
+- Na vyhodnotenie použitý svoj skript a framework llm-eval-harness.
+- Pokračuje písanie.
+
+Úlohy:
+
+- Pošlite mi draft BP na ďalšie stretnutie.
+- Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov.
+- Pokračujte v písaní.
+- Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT .
+- Napíšte ChatGPT prompt na detekciu nenávistnej reči. 
+- Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab.
+
+
+Zásobník úloh:
+
+- Zistite čo je to PEFT a kvantizácia a ako sa to používa. 
+- Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT.
+
 Stretnutie 18.10.2024

 Stav:
@ -46,9 +69,8 @@ Stav:

 Zásobník úloh:

- Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. 
- Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči.
- Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. 
+- [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. 
+- [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. 

 Stretnutie 3.10.2024

--- a/pages/students/2022/valerii_kutsenko/README.md
+++ b/pages/students/2022/valerii_kutsenko/README.md
@ -14,7 +14,7 @@ rok začiatku štúdia: 2022
 Generovanie otázok zo zadaného textu.


-Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces  RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation
+Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces  RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation

 Nové nápady:

@ -25,9 +25,34 @@ Nové nápady:
 Ako na to:

 - Natrénujte generatívny model pre generovanie otázok. Použite existujúci skript a množinu SKQUAD.
- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom. 
+- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom. 
 - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí.

+Stretnutie 22.11.2024
+
+Stav:
+
+- Napísané  o mt5 a umt5 v BP.
+- Urobené dotrénovanie na generovanie otázok. 
+- Napísaná tabuľka s výsledkami experimentov. Metriky BLEU a ROGUE.
+- Napísaný skript, skript je na gite. 
+
+Úlohy:
+
+- Pokračujte v písaní práce. Napíšte aj o metrikách vyhodnotenia.
+- Vyhľadajte a stručne opíšte vedecké články o generovaní otázok. Na vyhľadanie použite Google scholar.
+- Pridajte slovak t5 base model do experimentov.
+- Dotrénujte Slovak Falcon. Tam bude treba iný skript.
+
+Zásobník úloh:
+
+- Vymyslieť systém - natrénovať meurónku na návrh "odpovede".
+- Vyskúšať generovať otázky bez zadanej odpovede. Odpoveď generujte pomocou modelu. Model pre automatické odpovede už je na HF Hube: slovakbert-skquad.
+- Vyradiť také otázky, na ktoré systém nevie dopovedať.
+- Skúsiť generovať otázky z medicínskeho textu.
+
+
+
 Stretnutie 18.10.2024

 Stav:
--- a/pages/students/2022/vladyslav_yanchenko/README.md
+++ b/pages/students/2022/vladyslav_yanchenko/README.md
@ -12,24 +12,77 @@ rok začiatku štúdia: 2022

 # Bakalárska práca 2025

-Názov: Testovanie v klaudového riešenia na platforme Kuberntes
+Názov: Kontinuálne nasadenie a testovanie aplikácie v klaudovom prostredí. 
+
+Úlohy BP:
+
+- Vypracujte písomný prehľad verejných klaudových služieb pre podporu  procesu a nasadenia aplikácie.
+- Vypracujte písomný prehľad prostriedkov kontinuálneho nasadenie a integrácie.
+- Vytvorte webovú aplikáciu zloženú z viacerých komponentov a upravte ju do podoby vhodnej na nasadenie v klaude. K aplikácii vytvorte automatické testy.
+- Vyberte vhodné klaudové riešenia pre nasadenie Vašej aplikácie a vytvorte skripty pre nasadenie aplikácie. Opíšte architektúru Vašej aplikácie.
+- Vytvorte a opíšte proces kontinuálneho nasadenia a integrácie zmien do Vašej aplikácie pomocou vybraných klaudových služieb. 
+

 Vedúci: doc. Matúš Pleva PhD.

 Nápad:

- Vytvorič webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT
+- Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD.
+
+Stretnutie 13.12.2024
+
+Stav:
+
+- CI-CD GIT HUB pipeline pre backend aj frontend.
+- Dockerfile je, zatiaľ to nefunguje s Azure Cloud, funguje lokalne. Registry zatiaľ nefunguje.
+- Auth cez JWT Token do LocalStorage.
+- Vyskúšaný Docker Compose, zatiaľ nefunguje na lokálny klaster.
+
+
+Úlohy:
+
+- Zistiť čo je Registry a ako to funguje.
+
+
+Stretnutie 8.11.2024
+
+Stav:
+
+- Backend SpringBoot, frontend React-Next.js.
+- Urobená základná autentifikácia pomocou HTTP Basic Auth.
+- Vyskúšaná kontajnerizácia.
+- Kódy sú na GitHUBe. https://github.com/MrSid333/bankapp.git
+- Aktivované Azure a Azure PostgreSQL aj úložisko. Zatiaľ nie je prepojené.  úložisko.
+- Naštudované GITHUB CI-CD.
+- Nainštalované minikube.
+- Práca na textoch.
+
+Úlohy:
+
+- Pokračujte v otvorených úlohách. 
+- Vytvorte nasadenie aplikácie pomocou Kubernetes.
+- Napíšte automatické testy a zostavte Github CI-CD pipeline. 
+- Zistite aké obmedzenia má GitHUB Pipeline.
+- Píšte BP pošlite mi draft.
+
+Zásobník úloh:
+
+- Vytvorte nasadenie Vašej aplikácie do Azure a skritpy pre nasadenie dajte na GitHUB. Dávajte pozor aby ste nezverejnili Vaše prístupové údaje.
+- Napíšte článok do "online média" o CI CD v klaude vo forme tutoriálu pre študentov. Z tutoriálu sa študent dozvie, čo je to CI CD, ako to vytvoriť pre konkretny projekt na GITHUbe.
+- Zostavte pipeline pomocou iného nástroja (Azure, Jenkins) a porovnajte ich.
+
+

 Stretnutie 3.10.2024

 Úlohy:

-	Preštudujte si platformu Kuberntes. Napíšte čo je to. Napíšte čo je to kontajnerizácia.
-	Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať.
-	Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD násstorje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure.
-	Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikrosluťžieb a bude využívať klaudové úložisko
-	Ku  aplikácii navrhnite niekoľko automatických testov.
-	Zostavte CI CD P(ipeline pre automatické zostavenie a testovanie aplikácie
+-	[x] Preštudujte si platformu Kubernetes. Napíšte čo je to. Napíšte čo je to kontajnerizácia.
+-	[x] Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať.
+-	[x] Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikroslužieb a bude využívať klaudové úložisko.
+-	Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD nástroje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure.
+-	Ku aplikácii navrhnite niekoľko automatických testov.
+-	Zostavte CI CD Pipeline pre automatické zostavenie a testovanie aplikácie



--- a/pages/students/2022/yevhenii_leonov/README.md
+++ b/pages/students/2022/yevhenii_leonov/README.md
@ -30,7 +30,27 @@ Návrh na tému:

 Spolupráca Oleh Poiasnik

-Stretnutie:
+Stav:
+
+- Práca na úlohách z minulého stretnutia, vyskúšaný RAGAS. 
+- Nainštalovaný a vyskúšaný systém od p . Poiasnika.
+
+Úlohy:
+
+- Pripravte "vzorovú" množinu na testovanie.
+- Pripravte testovaciu množinu. Množina by sa mala skladať z čo najväčšieho množstva príkladov. 
+- Vyskúšajte testovaciu množinu pomocou RAGAS a modelov ktoré používa p. Poiasnik. Vyhodnotte modely pomocou množiny.
+- Kódy dávajte na GIT (napr. branch alebo adresár p Poiasnik GIT).
+- Pokračujte v písomných úlohách. Hľadajte články cez scholar a píšte si poznámky. Do BP.
+
+Zásobník úloh:
+
+- Pripravte (nakódujte, odkopírovať) postup vyhľadávania podobný ako "reálny systém", ale využíval RAGAS.
+- Pripravte testovacie API pre RAG systém. Bude to funkcia alebo URL cez ktorú sa bude dať systém testovať. 
+- Pomocou metriky a množiny vyhodnotte reálny systém.
+
+
+Stretnutie 11.1.:

 Stav:

@ -39,17 +59,15 @@ Stav:

 Úlohy:

-
- Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
- Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
- Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky. 
- Zistite a opíšte aké metriky sa používajú.
+- [x] Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. Optimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
+- [x] Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
+- [ ] Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky. 
+- [-] Zistite a opíšte aké metriky sa používajú. Ku každej metrike je potrebný odkaz na článok. 

 Zásobník úloh:

- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť.
- Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede. 
- Napíšte príklady alebo použite generatívny model
+- [-] Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede.
+- [ ] Napíšte príklady alebo použite generatívny model