Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki

This commit is contained in:
Daniel Hládek 2025-01-21 13:05:18 +01:00
commit 98c2db90c6
14 changed files with 531 additions and 39 deletions

View File

@ -26,7 +26,61 @@ Ciel:
- Vytvorte distribuovaný vyhľadávací index pre dáta zo slovenského internetu. Cieľom je vytvoriť vyhľadávanie na (skoro) celom slovenskom internete.
Spolupráca Michal Stromko, Kristián Sopkovič.
Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko
Stretnutie 17.1.2025
Stav:
- Pokus o indexovanie na Quadre, ale treba nainštalovať Anaconda pre závislosti.
- Prezentácia.
Stretnutie 16.12.
- Vytvorený indexer
- Vytvorené rozhranie vyhľadávania
- Deployment Milvus.
- Zatiaľ je indexovanie pomalé na domácej karte.
Úlohy:
- Dajte kódy na GIT.
- Vyskúšajte indexovanie na servri QUADRO
- Pracujte na textovej časti.
Stretnutie 22.11.
Stav:
- Použitý HELM chart pre Milvus. Sú potrebné úpravy konfigurácie pre ARM - vymeniť Docker IMAGES.
- PV je vyriešené.
Úlohy:
- Skripty aj konfiguráky dávajte na GIT.
- Urobte skripty pre "prípravu" klastra.
- Urobte skripty pre nasadenie Mulvus na Klaster.
- Pokračujte v písaní práce.
Zásobík úloh:
- Keď to bude hotové, vyskúšajte skripty na DeskPI Super6C Klastri, p. Huzenko.
- Urobte benchamark na Milvus deployment.
- Naštudujte si Ansible a urobíte Ansible konfiguráciu microk8s.
Stretnutie 7.11.2024
Stav:
- Riešenie problémov súvisiacich s PersistentVolume
- Práca na texte
Stretnutie 15.10.2024

View File

@ -15,8 +15,48 @@ Ciel:
Overiť a zlepšiť možnosti generovania jednotkových testov
Stretnutie 12.12.2024
Stretnutie online 5.2.2023:
Stav:
- Metrika Pass@K sa používa na vyhodnotenie generovaného kódu. Meria, koľko automatických textov bolo splnených. Používa sa aj BLEU, verzia CodeBLEU. CodeJudge.
- Na testovanie generovaných testov sa používajú: vykonanie produkčného kódu, pokrytie testov, mutácie kódu, statická analýza generovaného kódu.
- Vyskúšaný model polycoder (na C),codeparrot (na python) na kaggle. Code T5 zatiaľ nie je vyskúšaný.
- Copilot by mal byť pre študentov zadarmo. Študneti majú aj Azure kredity.
Úlohy:
- Pokračujte v otvorených úlohách.
- Pripravte sa na predobhajobu - prezentácia s výsledkami.
Zásobník úloh:
- Pomocou vybranej množiny porovnajte vybrané modely pre generovanie kódu.
Stretnutie 14.11. 2924
Stav:
- Vyhľadané modely na generovanie kódu. Nie sú vyskúšané. Codex, CodeParrot a Incoder. Na unittesty CodeT5 a AthenaTest.
- Rozčítané knihy podľa pokynov.
Úlohy:
Zistite odpovede na tieto otázky:
- [x] Ako zistíme, že vygenerovaný kód je dobrý.
- [x] Ako zistíme, že vygenerovaný test vyhovuje špecifikácii?
- [-] Vypracujte písomný prehľad modelov pre generovanie kódu. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Napíšte na akej neurónovej sieti sú založené, aké sú veľk=, aké jazyky podporujú, aké výsledky dosahujú. Použite odborné články. Odborné články nájdete na google scholar alebo scopus.
- [-] Pripravte vzorovú dátovú množinu. Hotové testy, implementácie aj dokumentáciu. Možno vybrať existujúci open source projekt alebo hotovú dátovú množinu.
- [-] Vyskúšajte niekoľko jazykových modelov pre generovanie kódu aj generovanie testov.
- [ ] Do diplomovej práce vypracujte experimenty kde vyhodnotíte jazykové modely pre generovanie testov v rôznych prostrediach.
Zásobník úloh:
- Dotrénujte model pre lepšie generovansie testov.
Stretnutie online 5.2.2024:
Úlohy:

View File

@ -15,9 +15,25 @@ Ciel:
- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
- Strjový preklad vybranej množiny instruct.
- Strojový preklad vybranej množiny instruct.
Stretnutie 14.11.2024
Stav:
- Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle.
- Pokračuje písanie.
Úlohy:
- Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup.
- Pokračujte v púísaní
- Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely.
Zásobník úloh:
- Dotrénujte aj iné modely a porovnajte výsledky.
- Zverejnite dotrénovaný model alebo viac modelov na HF HUB. využijeme TUKE-KEMT org.
Stretnutie 15.10.

View File

@ -2,13 +2,34 @@
title: Martin Šarišský
published: true
taxonomy:
category: [vp2023,bp2024]
category: [vp2023,bp2024,dp2026]
tag: [chatbot,rasa,dialog,nlp]
author: Daniel Hladek
---
rok začiatku štúdia: 2021
# Diplomová praca 2026
Ciele:
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
Príprava:
- Zopakujte si Python.
- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama.
- Oboznámte sa s framewworkom LangChain.
- pozrite si LangChain Transformers Agents.
- Ako funguje FunctionCalling - AgentTools?.
- Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar.
- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting.
- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
# Bakalárska práca 2024

View File

@ -2,13 +2,30 @@
title: Matej Ščišľak
published: true
taxonomy:
category: [bp2024]
category: [bp2024, dp2026]
tag: [chatbot,rasa,dialog,nlp]
author: Daniel Hladek
---
rok začiatku štúdia: 2021
Ciele:
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
Príprava:
- Zopakujte si Python.
- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama.
- Oboznámte sa s framewworkom LangChain.
- pozrite si LangChain Transformers Agents.
- Ako funguje FunctionCalling - AgentTools?.
- Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar.
- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting.
- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
# Bakalárska práca 2024

View File

@ -10,6 +10,73 @@ taxonomy:
rok začiatku štúdia: 2021
# Bakalárska práca 2025
Zadanie:
1. Vypracujte prehľad neurónových sietí a metód na vykonávanie opravy textu.
2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu.
3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia.
Poznámky 21.1.2025
Stav:
- Napísané skripty pre vyhodnotneie "masked" language modeling.
- Vyhodnotené modely SlovakBERT a multilingualbert BASE.
Úlohy:
- Vyberte vhodnú množinu slovenských textov.
- Pripravte množinu pre úlohu detekcie chýbajúcej alebo nadbytočnej interpunkcie - (bodka, čiarka, otáznik, výkričník, dvojbodka).
- Pripravte množinu pre pre úlohu opravy uť identifikovaého preklepu.
- Vyhodnotte viaceré modely.
- Pokračujte v písaní práce podľa nového zadania.
Zásobník úloh:
- Využite modely SlovakT5 a ByT5.
Stretnutie 17.12.
Stav:
- Práca na skriptoch, nainštalovaný Pytorch, transformers, fairseq,
- Skript na prípravu dát - spustený.
- chyba pri spustení trénovacieho skriptu - chýba executable.
Úlohy:
- ! Začnite pracovať na písomnej časti.
- Nainštalujte si Marian NMT.
- Vypýtajte si Marian Model na opravu od Ing. Maroš Harahus.
- Vyskúšajte ho a vyhodnotte pomocou metriky WER. Zistite si čo je to WER, napíšte to do práce
- Nainštalujte si model ByT5 z knižnice HF Transformers. Zistie čo to je, napíšte to do práce.
- Vyskúšajte model ByT5 na korekciu textu. Vyhodnoote ho.
- Vyskúšajte model SlovakBERT na detekciu preklepov. Model určuje pravdepodobnosť každého slova vo vete. Model vie doplniť chýbajúce slovo, alebo najpravdepodobnejšie slovo. Zistite že ako, napíšte to do práce.
- Do práce doplnte odkazy na vedecké články.
Zásobník úloh:
- Natrénujte model.
Stav:
- Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny.
- Textová časť je neuspokojivá.
Úlohy:
- Naučte sa trénovať systém pre strojový preklad.
- Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký.
- Natrénujte a vyhodnotte model.
- Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar.
# Bakalárska práca 2024
Korekcia textu pomocou neurónových sietí
@ -32,7 +99,7 @@ Stav:
Úlohy:
- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train
- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train.
- Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho.
- Pokračujte v písaní bakalárskej práce.

View File

@ -14,6 +14,7 @@ rok začiatku štúdia: 2022
## Bakalárska práca 2025
Návrh na tému:
Korekcia textu pomocou neurónových sietí
@ -22,6 +23,46 @@ Korekcia textu pomocou neurónových sietí
- Aplikujte existujúci model na opravu textu vo vybraných úlohách.
- Vyhodnnotte model pomocou overovacej množiny.
Návrh na zadanie práce:
1. Napíšte prehľad metód opravy textu pomcou neurónových modelov.
2. Zostavte trénovací korpus a natrénujte vybraný model na úlohu opravy textu v slovenskom jazyku.
3. Navrhnite experiment a vyhodnotte kvalitu natrénovaného neurónového modelu.
4. Identifikujte možné zlepšenia navrhnutého modelu.
Stretnutie 19.12.2024
Stav:
- Nové trénovanie Byt5 z mc4. Vyzerá, že to ide. Vlastný trénovací skript, skript od Ing. Harahusa.
- Text prepísaný do Latex, WIP
Stretnutie 22.11.2024
Stav:
- WikiEdits nefunguje.
- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky.
- Na trénovanie sa používa mt5-large.
- Konzultácia Ing. Harahusom PhD.
- Trénovanie modelu.
Úlohy:
- Pokračujte v písaní podľa pokynov nižšie.
- Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein.
- Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base.
- Pokračujte s "base modelmi".
- Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný.
Zásobník úloh:
- Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4.
Stretnutie 3.10.2024
Stav:

View File

@ -1,5 +1,5 @@
---
title: Daaniil Huzenko
title: Daniil Huzenko
published: true
taxonomy:
category: [bp2025]
@ -18,6 +18,77 @@ Predbežný názov:
Testovanie hybridného klaudu s využiťím kombinácie verejného a privátneho riešenia
Cielom práce je vytvorenie vzelávacích materiálov o Kubernetes a funkčného prototypu privátneho klastra Kubernetes .
Stetnutie 22.11.2024
Stav:
- Klaster funguje. Ku každému node je možné sa pripojiť cez SSH.
- Momentálne notebook slúži ako router.
- Práca na DNS MASQ prideľovanie IP adries z routra.
- Microk8s funguje
Úlohy:
- Napíšte návod a skripty pre konfiguráciu routra pre K8s klastra SuperC.
- Router by mal vedieť:
- prideliť IP adresu v privátnej podsieti pre všetky uzly klastra.
- mal by vedieť konfigurovať (resetovať) klaster pomocou Ansible.
- Vyporacujte video a textový tutoriál k inštalácii klastra.
- Skripty a návody dajte na GIT. Video nedávajte na GIT. (dajte na Youtube).
Zásobník úloh:
- Router by mal slúžiť ako rozhranie medzi verejnou a súkromnou sieťou - mal by sprostredkovať služby Kubernetes. Dorobte na to skripty Ansible a K8s konfiguráciu - Ingress, Load Balancer, Dashboard.
Stretnutie 14.11
Stav:
- 1 ks klastra je zmontovany
Úlohy:
- Napíšte o tom čo je to kontajnerizácia, čo je Kubernetes, stručne o Rpi CM4 a Super6C - opíšte HW.
- Píšte o metódach orchestrácie. Čo je to a akými metódami sa to robí?
- Napíšte o Ansible. Ako riadiť klaster pomocou Ansible?
- Citujte knihy a odborné články. Nájdete to na google scholar.
Zásobník úloh:
- Pripravte skripty Ansible pre "setup" klastra
- Pripravte skripty pre "reinstall" klastra poocou Ansible
- Zistite ako funguje netboot na rpi, skúste reinstall cez networkboot.
Stretnutie 12.11.2024
Stav:
- Písanie draftu BP
- Vyskúšané tutoriály s Minikube.
Úlohy:
- Zmontujte Raspberry Pi klaster: 1x skrinka s príslušenstvom, 6x RPI Compute Module 4, 1 doska a zdroj SUper6C.
- Urobte videoblog o tom ako zmontovať RPI klaster. Akým jazykom? Po rusky alebo po slovensky?
- Zistite čo je to MicroK8s
- Pokračujte v písaní BP. Používajte citácie na odbornú literatúru ()knihy a odborné články. Do BP píšte aj o hardvéri ktorý ste dostali. Odborné články nájdete na google scholar.
- Prihláste sa na Azure KLaud.
Zásobník úloh:
- Oživte klaster a nainštalujte na neho MicroK8s. Inštaláciu urobte ľahko opakovateľnú pomocou skriptu.
- Nainštalujte monitorovacie nástroje na klaster.
- Urobte deployment aplikácie na privány klaster aj na verejnmý klaster (AKS).
- Urobte druhý videoblog o inštalácii softvéru na náš klaster.
- Napíšte textový blog o tom čo ste urobili - cieľ je poučiť a inšpirovať študentov.
Stretnutie 4.10.2024
@ -28,7 +99,8 @@ Naštudovaný Kubernetes, nainštalované Minikube
Úlohy:
- Napíšte draft BP. Napíšte čo je to Kuberntes a ako sa používa.čo je to kontajnerizácia
- Napíšte, aké nástroje sa používajú na monitoring klastra.
- Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ Calico.
- [x] Napíšte draft BP. Napíšte čo je to Kubernetes a ako sa používa.čo je to kontajnerizácia
- [x] Napíšte, aké nástroje sa používajú na monitoring klastra.
- [-] Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ Calico.

View File

@ -29,13 +29,29 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí
RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation
8.11.2024
Stav:
- Modifikovaný frontend (Tailwind)
- Vytvorený Docker Images, Elasticsearch databáza aj index.
- Je aj skript na indexovanie.
- Vyskúšaný Mistral Small a Mistral Large cez API-
Úlohy:
- Pracujte na texte, pošlite mi draft.
- Pripojte sa na server quadro.kemt.fei.tuke.sk (cez ssh z tuke siete). Použite prostredie Anaconda.
- Na inferenciu (beh modelu) vyskúšajte vllm. Alebo ollama alebo localai. Dobrý model pre slovenčinu je Qwen2.5 alebo slovak-t5-base. Na vektorvé vyhľadávnaie je zatiaľ najlepší model multilingual E5. Možno aj BGE - nie je overený.
17.10.20204
Stav:
- Funguje web rozhranie aj vyhľadávanie.
- Kódy sú na gite. Využíva sa Flask, Mistral API pre Mistral-Small (nebeží lokálne). Na vektory MiniLM2
- Napísané poznámky o praktickej časti.
- Napísané poznámky o praktickej časti.
Úlohy

View File

@ -12,8 +12,6 @@ rok začiatku štúdia: 2022
# Bakalárska práca 2025
Cieľ:
- Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít.
@ -23,6 +21,38 @@ Do budúcnosti:
- Vypracovanie webového dema
- Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).
Návrh na zadanie bakalárskej práce:
1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku.
2. Napíšte prehľad existujúcich dátových množin, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít.
3. Vyberte vhodný model a dátovú množinu a natrénujte a vyhodnotte model.
4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomentovaných entít.
Stretnutie 20.12.2024
Stav:
- Splnené úlohy z posledného stetnutia
- Text je v dobrom stave, treba ešte použiť šablónu.
Úlohy:
- Pripravte si prezentáciu.
- Textu dajte na moodle, skripty dajte na git.
- Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články.
- Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.
Zásobník úloh:
- Zostavte webové demo
- Pripravte experiment pre ukrajinský a ruský jazyk.
- Priprave Dockerfile pre Vaše demo
- Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty.
Stretnutie 30.10.2024
Stav:
@ -33,10 +63,10 @@ Stav:
Úlohy:
- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
- Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
- Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification
- [x] Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
- [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
- [x] Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
- [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification
Zásobník úloh:

View File

@ -27,6 +27,29 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.
- Na adaptáciu použite "prompting" a "LORA".
- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).
Stretnutie 12.11.2024
Stav:
- Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky.
- Na vyhodnotenie použitý svoj skript a framework llm-eval-harness.
- Pokračuje písanie.
Úlohy:
- Pošlite mi draft BP na ďalšie stretnutie.
- Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov.
- Pokračujte v písaní.
- Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT .
- Napíšte ChatGPT prompt na detekciu nenávistnej reči.
- Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab.
Zásobník úloh:
- Zistite čo je to PEFT a kvantizácia a ako sa to používa.
- Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT.
Stretnutie 18.10.2024
Stav:
@ -46,9 +69,8 @@ Stav:
Zásobník úloh:
- Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
- Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči.
- Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.
- [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
- [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.
Stretnutie 3.10.2024

View File

@ -14,7 +14,7 @@ rok začiatku štúdia: 2022
Generovanie otázok zo zadaného textu.
Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation
Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation
Nové nápady:
@ -25,9 +25,34 @@ Nové nápady:
Ako na to:
- Natrénujte generatívny model pre generovanie otázok. Použite existujúci skript a množinu SKQUAD.
- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom.
- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom.
- Výstupom by mala byť umelo generovaná databáza otázok a odpovedí.
Stretnutie 22.11.2024
Stav:
- Napísané o mt5 a umt5 v BP.
- Urobené dotrénovanie na generovanie otázok.
- Napísaná tabuľka s výsledkami experimentov. Metriky BLEU a ROGUE.
- Napísaný skript, skript je na gite.
Úlohy:
- Pokračujte v písaní práce. Napíšte aj o metrikách vyhodnotenia.
- Vyhľadajte a stručne opíšte vedecké články o generovaní otázok. Na vyhľadanie použite Google scholar.
- Pridajte slovak t5 base model do experimentov.
- Dotrénujte Slovak Falcon. Tam bude treba iný skript.
Zásobník úloh:
- Vymyslieť systém - natrénovať meurónku na návrh "odpovede".
- Vyskúšať generovať otázky bez zadanej odpovede. Odpoveď generujte pomocou modelu. Model pre automatické odpovede už je na HF Hube: slovakbert-skquad.
- Vyradiť také otázky, na ktoré systém nevie dopovedať.
- Skúsiť generovať otázky z medicínskeho textu.
Stretnutie 18.10.2024
Stav:

View File

@ -12,24 +12,77 @@ rok začiatku štúdia: 2022
# Bakalárska práca 2025
Názov: Testovanie v klaudového riešenia na platforme Kuberntes
Názov: Kontinuálne nasadenie a testovanie aplikácie v klaudovom prostredí.
Úlohy BP:
- Vypracujte písomný prehľad verejných klaudových služieb pre podporu procesu a nasadenia aplikácie.
- Vypracujte písomný prehľad prostriedkov kontinuálneho nasadenie a integrácie.
- Vytvorte webovú aplikáciu zloženú z viacerých komponentov a upravte ju do podoby vhodnej na nasadenie v klaude. K aplikácii vytvorte automatické testy.
- Vyberte vhodné klaudové riešenia pre nasadenie Vašej aplikácie a vytvorte skripty pre nasadenie aplikácie. Opíšte architektúru Vašej aplikácie.
- Vytvorte a opíšte proces kontinuálneho nasadenia a integrácie zmien do Vašej aplikácie pomocou vybraných klaudových služieb.
Vedúci: doc. Matúš Pleva PhD.
Nápad:
- Vytvorič webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT
- Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD.
Stretnutie 13.12.2024
Stav:
- CI-CD GIT HUB pipeline pre backend aj frontend.
- Dockerfile je, zatiaľ to nefunguje s Azure Cloud, funguje lokalne. Registry zatiaľ nefunguje.
- Auth cez JWT Token do LocalStorage.
- Vyskúšaný Docker Compose, zatiaľ nefunguje na lokálny klaster.
Úlohy:
- Zistiť čo je Registry a ako to funguje.
Stretnutie 8.11.2024
Stav:
- Backend SpringBoot, frontend React-Next.js.
- Urobená základná autentifikácia pomocou HTTP Basic Auth.
- Vyskúšaná kontajnerizácia.
- Kódy sú na GitHUBe. https://github.com/MrSid333/bankapp.git
- Aktivované Azure a Azure PostgreSQL aj úložisko. Zatiaľ nie je prepojené. úložisko.
- Naštudované GITHUB CI-CD.
- Nainštalované minikube.
- Práca na textoch.
Úlohy:
- Pokračujte v otvorených úlohách.
- Vytvorte nasadenie aplikácie pomocou Kubernetes.
- Napíšte automatické testy a zostavte Github CI-CD pipeline.
- Zistite aké obmedzenia má GitHUB Pipeline.
- Píšte BP pošlite mi draft.
Zásobník úloh:
- Vytvorte nasadenie Vašej aplikácie do Azure a skritpy pre nasadenie dajte na GitHUB. Dávajte pozor aby ste nezverejnili Vaše prístupové údaje.
- Napíšte článok do "online média" o CI CD v klaude vo forme tutoriálu pre študentov. Z tutoriálu sa študent dozvie, čo je to CI CD, ako to vytvoriť pre konkretny projekt na GITHUbe.
- Zostavte pipeline pomocou iného nástroja (Azure, Jenkins) a porovnajte ich.
Stretnutie 3.10.2024
Úlohy:
- Preštudujte si platformu Kuberntes. Napíšte čo je to. Napíšte čo je to kontajnerizácia.
- Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať.
- Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD násstorje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure.
- Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikrosluťžieb a bude využívať klaudové úložisko
- Ku aplikácii navrhnite niekoľko automatických testov.
- Zostavte CI CD P(ipeline pre automatické zostavenie a testovanie aplikácie
- [x] Preštudujte si platformu Kubernetes. Napíšte čo je to. Napíšte čo je to kontajnerizácia.
- [x] Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať.
- [x] Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikroslužieb a bude využívať klaudové úložisko.
- Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD nástroje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure.
- Ku aplikácii navrhnite niekoľko automatických testov.
- Zostavte CI CD Pipeline pre automatické zostavenie a testovanie aplikácie

View File

@ -30,7 +30,27 @@ Návrh na tému:
Spolupráca Oleh Poiasnik
Stretnutie:
Stav:
- Práca na úlohách z minulého stretnutia, vyskúšaný RAGAS.
- Nainštalovaný a vyskúšaný systém od p . Poiasnika.
Úlohy:
- Pripravte "vzorovú" množinu na testovanie.
- Pripravte testovaciu množinu. Množina by sa mala skladať z čo najväčšieho množstva príkladov.
- Vyskúšajte testovaciu množinu pomocou RAGAS a modelov ktoré používa p. Poiasnik. Vyhodnotte modely pomocou množiny.
- Kódy dávajte na GIT (napr. branch alebo adresár p Poiasnik GIT).
- Pokračujte v písomných úlohách. Hľadajte články cez scholar a píšte si poznámky. Do BP.
Zásobník úloh:
- Pripravte (nakódujte, odkopírovať) postup vyhľadávania podobný ako "reálny systém", ale využíval RAGAS.
- Pripravte testovacie API pre RAG systém. Bude to funkcia alebo URL cez ktorú sa bude dať systém testovať.
- Pomocou metriky a množiny vyhodnotte reálny systém.
Stretnutie 11.1.:
Stav:
@ -39,17 +59,15 @@ Stav:
Úlohy:
- Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
- Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
- Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky.
- Zistite a opíšte aké metriky sa používajú.
- [x] Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. Optimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
- [x] Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
- [ ] Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky.
- [-] Zistite a opíšte aké metriky sa používajú. Ku každej metrike je potrebný odkaz na článok.
Zásobník úloh:
- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť.
- Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede.
- Napíšte príklady alebo použite generatívny model
- [-] Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede.
- [ ] Napíšte príklady alebo použite generatívny model