diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index d13de8a56..c10db6a2f 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -26,7 +26,61 @@ Ciel: - Vytvorte distribuovaný vyhľadávací index pre dáta zo slovenského internetu. Cieľom je vytvoriť vyhľadávanie na (skoro) celom slovenskom internete. -Spolupráca Michal Stromko, Kristián Sopkovič. +Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko + +Stretnutie 17.1.2025 + +Stav: + +- Pokus o indexovanie na Quadre, ale treba nainštalovať Anaconda pre závislosti. +- Prezentácia. + + + +Stretnutie 16.12. + +- Vytvorený indexer +- Vytvorené rozhranie vyhľadávania +- Deployment Milvus. +- Zatiaľ je indexovanie pomalé na domácej karte. + +Úlohy: + +- Dajte kódy na GIT. +- Vyskúšajte indexovanie na servri QUADRO +- Pracujte na textovej časti. + + +Stretnutie 22.11. + +Stav: + +- Použitý HELM chart pre Milvus. Sú potrebné úpravy konfigurácie pre ARM - vymeniť Docker IMAGES. +- PV je vyriešené. + +Úlohy: + +- Skripty aj konfiguráky dávajte na GIT. +- Urobte skripty pre "prípravu" klastra. +- Urobte skripty pre nasadenie Mulvus na Klaster. +- Pokračujte v písaní práce. + + +Zásobík úloh: + +- Keď to bude hotové, vyskúšajte skripty na DeskPI Super6C Klastri, p. Huzenko. +- Urobte benchamark na Milvus deployment. +- Naštudujte si Ansible a urobíte Ansible konfiguráciu microk8s. + + +Stretnutie 7.11.2024 + +Stav: + +- Riešenie problémov súvisiacich s PersistentVolume +- Práca na texte + + Stretnutie 15.10.2024 diff --git a/pages/students/2020/kamil_tomcufcik/README.md b/pages/students/2020/kamil_tomcufcik/README.md index 296676079..74fe407e1 100644 --- a/pages/students/2020/kamil_tomcufcik/README.md +++ b/pages/students/2020/kamil_tomcufcik/README.md @@ -15,8 +15,48 @@ Ciel: Overiť a zlepšiť možnosti generovania jednotkových testov +Stretnutie 12.12.2024 -Stretnutie online 5.2.2023: +Stav: + +- Metrika Pass@K sa používa na vyhodnotenie generovaného kódu. Meria, koľko automatických textov bolo splnených. Používa sa aj BLEU, verzia CodeBLEU. CodeJudge. +- Na testovanie generovaných testov sa používajú: vykonanie produkčného kódu, pokrytie testov, mutácie kódu, statická analýza generovaného kódu. +- Vyskúšaný model polycoder (na C),codeparrot (na python) na kaggle. Code T5 zatiaľ nie je vyskúšaný. +- Copilot by mal byť pre študentov zadarmo. Študneti majú aj Azure kredity. + +Úlohy: + +- Pokračujte v otvorených úlohách. +- Pripravte sa na predobhajobu - prezentácia s výsledkami. + +Zásobník úloh: + +- Pomocou vybranej množiny porovnajte vybrané modely pre generovanie kódu. + +Stretnutie 14.11. 2924 + +Stav: + +- Vyhľadané modely na generovanie kódu. Nie sú vyskúšané. Codex, CodeParrot a Incoder. Na unittesty CodeT5 a AthenaTest. +- Rozčítané knihy podľa pokynov. + +Úlohy: + +Zistite odpovede na tieto otázky: +- [x] Ako zistíme, že vygenerovaný kód je dobrý. +- [x] Ako zistíme, že vygenerovaný test vyhovuje špecifikácii? +- [-] Vypracujte písomný prehľad modelov pre generovanie kódu. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Napíšte na akej neurónovej sieti sú založené, aké sú veľk=, aké jazyky podporujú, aké výsledky dosahujú. Použite odborné články. Odborné články nájdete na google scholar alebo scopus. +- [-] Pripravte vzorovú dátovú množinu. Hotové testy, implementácie aj dokumentáciu. Možno vybrať existujúci open source projekt alebo hotovú dátovú množinu. +- [-] Vyskúšajte niekoľko jazykových modelov pre generovanie kódu aj generovanie testov. +- [ ] Do diplomovej práce vypracujte experimenty kde vyhodnotíte jazykové modely pre generovanie testov v rôznych prostrediach. + +Zásobník úloh: + +- Dotrénujte model pre lepšie generovansie testov. + + + +Stretnutie online 5.2.2024: Úlohy: diff --git a/pages/students/2020/pavol_hudak/README.md b/pages/students/2020/pavol_hudak/README.md index e78cd86c6..880703c28 100644 --- a/pages/students/2020/pavol_hudak/README.md +++ b/pages/students/2020/pavol_hudak/README.md @@ -15,9 +15,25 @@ Ciel: - Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku. - Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset. -- Strjový preklad vybranej množiny instruct. +- Strojový preklad vybranej množiny instruct. +Stretnutie 14.11.2024 +Stav: + +- Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle. +- Pokračuje písanie. + +Úlohy: + +- Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup. +- Pokračujte v púísaní +- Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely. + +Zásobník úloh: + +- Dotrénujte aj iné modely a porovnajte výsledky. +- Zverejnite dotrénovaný model alebo viac modelov na HF HUB. využijeme TUKE-KEMT org. Stretnutie 15.10. diff --git a/pages/students/2021/martin_sarissky/README.md b/pages/students/2021/martin_sarissky/README.md index fdde6b9f1..30fcd0a41 100644 --- a/pages/students/2021/martin_sarissky/README.md +++ b/pages/students/2021/martin_sarissky/README.md @@ -2,13 +2,34 @@ title: Martin Šarišský published: true taxonomy: - category: [vp2023,bp2024] + category: [vp2023,bp2024,dp2026] tag: [chatbot,rasa,dialog,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2021 +# Diplomová praca 2026 + +Ciele: + +- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. + +Príprava: + +- Zopakujte si Python. +- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. +- Oboznámte sa s framewworkom LangChain. +- pozrite si LangChain Transformers Agents. +- Ako funguje FunctionCalling - AgentTools?. +- Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar. +- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting. +- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. + + + + + # Bakalárska práca 2024 diff --git a/pages/students/2021/matej_scislak/README.md b/pages/students/2021/matej_scislak/README.md index 05fc062f6..1388c68be 100644 --- a/pages/students/2021/matej_scislak/README.md +++ b/pages/students/2021/matej_scislak/README.md @@ -2,13 +2,30 @@ title: Matej Ščišľak published: true taxonomy: - category: [bp2024] + category: [bp2024, dp2026] tag: [chatbot,rasa,dialog,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2021 +Ciele: + +- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. + +Príprava: + +- Zopakujte si Python. +- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama. +- Oboznámte sa s framewworkom LangChain. +- pozrite si LangChain Transformers Agents. +- Ako funguje FunctionCalling - AgentTools?. +- Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar. +- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting. +- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. + + + # Bakalárska práca 2024 diff --git a/pages/students/2021/nikita_bodnar/README.md b/pages/students/2021/nikita_bodnar/README.md index 4632c29b1..c9c630a4a 100644 --- a/pages/students/2021/nikita_bodnar/README.md +++ b/pages/students/2021/nikita_bodnar/README.md @@ -10,6 +10,73 @@ taxonomy: rok začiatku štúdia: 2021 +# Bakalárska práca 2025 + +Zadanie: + +1. Vypracujte prehľad neurónových sietí a metód na vykonávanie opravy textu. +2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu. +3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia. + +Poznámky 21.1.2025 + +Stav: + +- Napísané skripty pre vyhodnotneie "masked" language modeling. +- Vyhodnotené modely SlovakBERT a multilingualbert BASE. + +Úlohy: + +- Vyberte vhodnú množinu slovenských textov. +- Pripravte množinu pre úlohu detekcie chýbajúcej alebo nadbytočnej interpunkcie - (bodka, čiarka, otáznik, výkričník, dvojbodka). +- Pripravte množinu pre pre úlohu opravy uť identifikovaého preklepu. +- Vyhodnotte viaceré modely. +- Pokračujte v písaní práce podľa nového zadania. + +Zásobník úloh: + +- Využite modely SlovakT5 a ByT5. + + +Stretnutie 17.12. + + +Stav: + +- Práca na skriptoch, nainštalovaný Pytorch, transformers, fairseq, +- Skript na prípravu dát - spustený. +- chyba pri spustení trénovacieho skriptu - chýba executable. + +Úlohy: + +- ! Začnite pracovať na písomnej časti. +- Nainštalujte si Marian NMT. +- Vypýtajte si Marian Model na opravu od Ing. Maroš Harahus. +- Vyskúšajte ho a vyhodnotte pomocou metriky WER. Zistite si čo je to WER, napíšte to do práce +- Nainštalujte si model ByT5 z knižnice HF Transformers. Zistie čo to je, napíšte to do práce. +- Vyskúšajte model ByT5 na korekciu textu. Vyhodnoote ho. +- Vyskúšajte model SlovakBERT na detekciu preklepov. Model určuje pravdepodobnosť každého slova vo vete. Model vie doplniť chýbajúce slovo, alebo najpravdepodobnejšie slovo. Zistite že ako, napíšte to do práce. +- Do práce doplnte odkazy na vedecké články. + + +Zásobník úloh: + +- Natrénujte model. + +Stav: + +- Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny. +- Textová časť je neuspokojivá. + +Úlohy: + +- Naučte sa trénovať systém pre strojový preklad. +- Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký. +- Natrénujte a vyhodnotte model. +- Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar. + + + # Bakalárska práca 2024 Korekcia textu pomocou neurónových sietí @@ -32,7 +99,7 @@ Stav: Úlohy: -- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train +- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train. - Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho. - Pokračujte v písaní bakalárskej práce. diff --git a/pages/students/2022/andrii_pervashov/README.md b/pages/students/2022/andrii_pervashov/README.md index df4e3da67..25f6190f9 100644 --- a/pages/students/2022/andrii_pervashov/README.md +++ b/pages/students/2022/andrii_pervashov/README.md @@ -14,6 +14,7 @@ rok začiatku štúdia: 2022 ## Bakalárska práca 2025 + Návrh na tému: Korekcia textu pomocou neurónových sietí @@ -22,6 +23,46 @@ Korekcia textu pomocou neurónových sietí - Aplikujte existujúci model na opravu textu vo vybraných úlohách. - Vyhodnnotte model pomocou overovacej množiny. +Návrh na zadanie práce: + +1. Napíšte prehľad metód opravy textu pomcou neurónových modelov. +2. Zostavte trénovací korpus a natrénujte vybraný model na úlohu opravy textu v slovenskom jazyku. +3. Navrhnite experiment a vyhodnotte kvalitu natrénovaného neurónového modelu. +4. Identifikujte možné zlepšenia navrhnutého modelu. + +Stretnutie 19.12.2024 + +Stav: + +- Nové trénovanie Byt5 z mc4. Vyzerá, že to ide. Vlastný trénovací skript, skript od Ing. Harahusa. +- Text prepísaný do Latex, WIP + + +Stretnutie 22.11.2024 + +Stav: + +- WikiEdits nefunguje. +- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky. +- Na trénovanie sa používa mt5-large. +- Konzultácia Ing. Harahusom PhD. +- Trénovanie modelu. + +Úlohy: + +- Pokračujte v písaní podľa pokynov nižšie. +- Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein. +- Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base. +- Pokračujte s "base modelmi". +- Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný. + +Zásobník úloh: + +- Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4. + + + + Stretnutie 3.10.2024 Stav: diff --git a/pages/students/2022/daniil_huzenko/README.md b/pages/students/2022/daniil_huzenko/README.md index 7b343ffec..e97c2ce5b 100644 --- a/pages/students/2022/daniil_huzenko/README.md +++ b/pages/students/2022/daniil_huzenko/README.md @@ -1,5 +1,5 @@ --- -title: Daaniil Huzenko +title: Daniil Huzenko published: true taxonomy: category: [bp2025] @@ -18,6 +18,77 @@ Predbežný názov: Testovanie hybridného klaudu s využiťím kombinácie verejného a privátneho riešenia +Cielom práce je vytvorenie vzelávacích materiálov o Kubernetes a funkčného prototypu privátneho klastra Kubernetes . + +Stetnutie 22.11.2024 + +Stav: + +- Klaster funguje. Ku každému node je možné sa pripojiť cez SSH. +- Momentálne notebook slúži ako router. +- Práca na DNS MASQ prideľovanie IP adries z routra. +- Microk8s funguje + +Úlohy: + +- Napíšte návod a skripty pre konfiguráciu routra pre K8s klastra SuperC. +- Router by mal vedieť: + - prideliť IP adresu v privátnej podsieti pre všetky uzly klastra. + - mal by vedieť konfigurovať (resetovať) klaster pomocou Ansible. +- Vyporacujte video a textový tutoriál k inštalácii klastra. +- Skripty a návody dajte na GIT. Video nedávajte na GIT. (dajte na Youtube). + +Zásobník úloh: + +- Router by mal slúžiť ako rozhranie medzi verejnou a súkromnou sieťou - mal by sprostredkovať služby Kubernetes. Dorobte na to skripty Ansible a K8s konfiguráciu - Ingress, Load Balancer, Dashboard. + + +Stretnutie 14.11 + +Stav: + +- 1 ks klastra je zmontovany + +Úlohy: + +- Napíšte o tom čo je to kontajnerizácia, čo je Kubernetes, stručne o Rpi CM4 a Super6C - opíšte HW. +- Píšte o metódach orchestrácie. Čo je to a akými metódami sa to robí? +- Napíšte o Ansible. Ako riadiť klaster pomocou Ansible? +- Citujte knihy a odborné články. Nájdete to na google scholar. + +Zásobník úloh: + +- Pripravte skripty Ansible pre "setup" klastra +- Pripravte skripty pre "reinstall" klastra poocou Ansible +- Zistite ako funguje netboot na rpi, skúste reinstall cez networkboot. + +Stretnutie 12.11.2024 + +Stav: + +- Písanie draftu BP +- Vyskúšané tutoriály s Minikube. + +Úlohy: + +- Zmontujte Raspberry Pi klaster: 1x skrinka s príslušenstvom, 6x RPI Compute Module 4, 1 doska a zdroj SUper6C. +- Urobte videoblog o tom ako zmontovať RPI klaster. Akým jazykom? Po rusky alebo po slovensky? +- Zistite čo je to MicroK8s + - Pokračujte v písaní BP. Používajte citácie na odbornú literatúru ()knihy a odborné články. Do BP píšte aj o hardvéri ktorý ste dostali. Odborné články nájdete na google scholar. + - Prihláste sa na Azure KLaud. + + +Zásobník úloh: + +- Oživte klaster a nainštalujte na neho MicroK8s. Inštaláciu urobte ľahko opakovateľnú pomocou skriptu. +- Nainštalujte monitorovacie nástroje na klaster. +- Urobte deployment aplikácie na privány klaster aj na verejnmý klaster (AKS). +- Urobte druhý videoblog o inštalácii softvéru na náš klaster. +- Napíšte textový blog o tom čo ste urobili - cieľ je poučiť a inšpirovať študentov. + + + + Stretnutie 4.10.2024 @@ -28,7 +99,8 @@ Naštudovaný Kubernetes, nainštalované Minikube Úlohy: -- Napíšte draft BP. Napíšte čo je to Kuberntes a ako sa používa.čo je to kontajnerizácia -- Napíšte, aké nástroje sa používajú na monitoring klastra. -- Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ – Calico. +- [x] Napíšte draft BP. Napíšte čo je to Kubernetes a ako sa používa.čo je to kontajnerizácia +- [x] Napíšte, aké nástroje sa používajú na monitoring klastra. +- [-] Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ – Calico. + diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index f66ec0ef0..f0da9d077 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -29,13 +29,29 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation +8.11.2024 + +Stav: + +- Modifikovaný frontend (Tailwind) +- Vytvorený Docker Images, Elasticsearch databáza aj index. +- Je aj skript na indexovanie. +- Vyskúšaný Mistral Small a Mistral Large cez API- + + +Úlohy: + +- Pracujte na texte, pošlite mi draft. +- Pripojte sa na server quadro.kemt.fei.tuke.sk (cez ssh z tuke siete). Použite prostredie Anaconda. +- Na inferenciu (beh modelu) vyskúšajte vllm. Alebo ollama alebo localai. Dobrý model pre slovenčinu je Qwen2.5 alebo slovak-t5-base. Na vektorvé vyhľadávnaie je zatiaľ najlepší model multilingual E5. Možno aj BGE - nie je overený. + 17.10.20204 Stav: - Funguje web rozhranie aj vyhľadávanie. - Kódy sú na gite. Využíva sa Flask, Mistral API pre Mistral-Small (nebeží lokálne). Na vektory MiniLM2 -- Napísané poznámky o praktickej časti. +- Napísané poznámky o praktickej časti. Úlohy diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index 83c94a7ea..e30fb8636 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -12,8 +12,6 @@ rok začiatku štúdia: 2022 # Bakalárska práca 2025 - - Cieľ: - Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít. @@ -23,6 +21,38 @@ Do budúcnosti: - Vypracovanie webového dema - Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty). +Návrh na zadanie bakalárskej práce: + +1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku. +2. Napíšte prehľad existujúcich dátových množin, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít. +3. Vyberte vhodný model a dátovú množinu a natrénujte a vyhodnotte model. +4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít. +5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomentovaných entít. + +Stretnutie 20.12.2024 + +Stav: + +- Splnené úlohy z posledného stetnutia +- Text je v dobrom stave, treba ešte použiť šablónu. + + +Úlohy: + +- Pripravte si prezentáciu. +- Textu dajte na moodle, skripty dajte na git. +- Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články. +- Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky. + + +Zásobník úloh: + +- Zostavte webové demo +- Pripravte experiment pre ukrajinský a ruský jazyk. +- Priprave Dockerfile pre Vaše demo +- Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty. + + Stretnutie 30.10.2024 Stav: @@ -33,10 +63,10 @@ Stav: Úlohy: -- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. -- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers. -- Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? -- Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification +- [x] Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. +- [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers. +- [x] Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? +- [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification Zásobník úloh: diff --git a/pages/students/2022/tetiana_mohorian/README.md b/pages/students/2022/tetiana_mohorian/README.md index bb10c9f7f..a3834b5ef 100644 --- a/pages/students/2022/tetiana_mohorian/README.md +++ b/pages/students/2022/tetiana_mohorian/README.md @@ -27,6 +27,29 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov. - Na adaptáciu použite "prompting" a "LORA". - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). +Stretnutie 12.11.2024 + +Stav: + +- Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky. +- Na vyhodnotenie použitý svoj skript a framework llm-eval-harness. +- Pokračuje písanie. + +Úlohy: + +- Pošlite mi draft BP na ďalšie stretnutie. +- Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov. +- Pokračujte v písaní. +- Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT . +- Napíšte ChatGPT prompt na detekciu nenávistnej reči. +- Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab. + + +Zásobník úloh: + +- Zistite čo je to PEFT a kvantizácia a ako sa to používa. +- Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT. + Stretnutie 18.10.2024 Stav: @@ -46,9 +69,8 @@ Stav: Zásobník úloh: -- Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. -- Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. -- Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. +- [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. +- [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. Stretnutie 3.10.2024 diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 286ab5a67..602ad1668 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -14,7 +14,7 @@ rok začiatku štúdia: 2022 Generovanie otázok zo zadaného textu. -Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation +Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation Nové nápady: @@ -25,9 +25,34 @@ Nové nápady: Ako na to: - Natrénujte generatívny model pre generovanie otázok. Použite existujúci skript a množinu SKQUAD. -- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom. +- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom. - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. +Stretnutie 22.11.2024 + +Stav: + +- Napísané o mt5 a umt5 v BP. +- Urobené dotrénovanie na generovanie otázok. +- Napísaná tabuľka s výsledkami experimentov. Metriky BLEU a ROGUE. +- Napísaný skript, skript je na gite. + +Úlohy: + +- Pokračujte v písaní práce. Napíšte aj o metrikách vyhodnotenia. +- Vyhľadajte a stručne opíšte vedecké články o generovaní otázok. Na vyhľadanie použite Google scholar. +- Pridajte slovak t5 base model do experimentov. +- Dotrénujte Slovak Falcon. Tam bude treba iný skript. + +Zásobník úloh: + +- Vymyslieť systém - natrénovať meurónku na návrh "odpovede". +- Vyskúšať generovať otázky bez zadanej odpovede. Odpoveď generujte pomocou modelu. Model pre automatické odpovede už je na HF Hube: slovakbert-skquad. +- Vyradiť také otázky, na ktoré systém nevie dopovedať. +- Skúsiť generovať otázky z medicínskeho textu. + + + Stretnutie 18.10.2024 Stav: diff --git a/pages/students/2022/vladyslav_yanchenko/README.md b/pages/students/2022/vladyslav_yanchenko/README.md index d3f61d579..0c33953e9 100644 --- a/pages/students/2022/vladyslav_yanchenko/README.md +++ b/pages/students/2022/vladyslav_yanchenko/README.md @@ -12,24 +12,77 @@ rok začiatku štúdia: 2022 # Bakalárska práca 2025 -Názov: Testovanie v klaudového riešenia na platforme Kuberntes +Názov: Kontinuálne nasadenie a testovanie aplikácie v klaudovom prostredí. + +Úlohy BP: + +- Vypracujte písomný prehľad verejných klaudových služieb pre podporu procesu a nasadenia aplikácie. +- Vypracujte písomný prehľad prostriedkov kontinuálneho nasadenie a integrácie. +- Vytvorte webovú aplikáciu zloženú z viacerých komponentov a upravte ju do podoby vhodnej na nasadenie v klaude. K aplikácii vytvorte automatické testy. +- Vyberte vhodné klaudové riešenia pre nasadenie Vašej aplikácie a vytvorte skripty pre nasadenie aplikácie. Opíšte architektúru Vašej aplikácie. +- Vytvorte a opíšte proces kontinuálneho nasadenia a integrácie zmien do Vašej aplikácie pomocou vybraných klaudových služieb. + Vedúci: doc. Matúš Pleva PhD. Nápad: -- Vytvorič webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT +- Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD. + +Stretnutie 13.12.2024 + +Stav: + +- CI-CD GIT HUB pipeline pre backend aj frontend. +- Dockerfile je, zatiaľ to nefunguje s Azure Cloud, funguje lokalne. Registry zatiaľ nefunguje. +- Auth cez JWT Token do LocalStorage. +- Vyskúšaný Docker Compose, zatiaľ nefunguje na lokálny klaster. + + +Úlohy: + +- Zistiť čo je Registry a ako to funguje. + + +Stretnutie 8.11.2024 + +Stav: + +- Backend SpringBoot, frontend React-Next.js. +- Urobená základná autentifikácia pomocou HTTP Basic Auth. +- Vyskúšaná kontajnerizácia. +- Kódy sú na GitHUBe. https://github.com/MrSid333/bankapp.git +- Aktivované Azure a Azure PostgreSQL aj úložisko. Zatiaľ nie je prepojené. úložisko. +- Naštudované GITHUB CI-CD. +- Nainštalované minikube. +- Práca na textoch. + +Úlohy: + +- Pokračujte v otvorených úlohách. +- Vytvorte nasadenie aplikácie pomocou Kubernetes. +- Napíšte automatické testy a zostavte Github CI-CD pipeline. +- Zistite aké obmedzenia má GitHUB Pipeline. +- Píšte BP pošlite mi draft. + +Zásobník úloh: + +- Vytvorte nasadenie Vašej aplikácie do Azure a skritpy pre nasadenie dajte na GitHUB. Dávajte pozor aby ste nezverejnili Vaše prístupové údaje. +- Napíšte článok do "online média" o CI CD v klaude vo forme tutoriálu pre študentov. Z tutoriálu sa študent dozvie, čo je to CI CD, ako to vytvoriť pre konkretny projekt na GITHUbe. +- Zostavte pipeline pomocou iného nástroja (Azure, Jenkins) a porovnajte ich. + + Stretnutie 3.10.2024 Úlohy: -- Preštudujte si platformu Kuberntes. Napíšte čo je to. Napíšte čo je to kontajnerizácia. -- Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať. -- Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD násstorje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure. -- Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikrosluťžieb a bude využívať klaudové úložisko -- Ku aplikácii navrhnite niekoľko automatických testov. -- Zostavte CI CD P(ipeline pre automatické zostavenie a testovanie aplikácie +- [x] Preštudujte si platformu Kubernetes. Napíšte čo je to. Napíšte čo je to kontajnerizácia. +- [x] Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať. +- [x] Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikroslužieb a bude využívať klaudové úložisko. +- Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD nástroje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure. +- Ku aplikácii navrhnite niekoľko automatických testov. +- Zostavte CI CD Pipeline pre automatické zostavenie a testovanie aplikácie diff --git a/pages/students/2022/yevhenii_leonov/README.md b/pages/students/2022/yevhenii_leonov/README.md index d215252b9..869b76d7d 100644 --- a/pages/students/2022/yevhenii_leonov/README.md +++ b/pages/students/2022/yevhenii_leonov/README.md @@ -30,7 +30,27 @@ Návrh na tému: Spolupráca Oleh Poiasnik -Stretnutie: +Stav: + +- Práca na úlohách z minulého stretnutia, vyskúšaný RAGAS. +- Nainštalovaný a vyskúšaný systém od p . Poiasnika. + +Úlohy: + +- Pripravte "vzorovú" množinu na testovanie. +- Pripravte testovaciu množinu. Množina by sa mala skladať z čo najväčšieho množstva príkladov. +- Vyskúšajte testovaciu množinu pomocou RAGAS a modelov ktoré používa p. Poiasnik. Vyhodnotte modely pomocou množiny. +- Kódy dávajte na GIT (napr. branch alebo adresár p Poiasnik GIT). +- Pokračujte v písomných úlohách. Hľadajte články cez scholar a píšte si poznámky. Do BP. + +Zásobník úloh: + +- Pripravte (nakódujte, odkopírovať) postup vyhľadávania podobný ako "reálny systém", ale využíval RAGAS. +- Pripravte testovacie API pre RAG systém. Bude to funkcia alebo URL cez ktorú sa bude dať systém testovať. +- Pomocou metriky a množiny vyhodnotte reálny systém. + + +Stretnutie 11.1.: Stav: @@ -39,17 +59,15 @@ Stav: Úlohy: - -- Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia. -- Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html -- Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky. -- Zistite a opíšte aké metriky sa používajú. +- [x] Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. Optimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia. +- [x] Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html +- [ ] Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky. +- [-] Zistite a opíšte aké metriky sa používajú. Ku každej metrike je potrebný odkaz na článok. Zásobník úloh: -- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. -- Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede. -- Napíšte príklady alebo použite generatívny model +- [-] Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede. +- [ ] Napíšte príklady alebo použite generatívny model