Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki
This commit is contained in:
		
						commit
						98c2db90c6
					
				| @ -26,7 +26,61 @@ Ciel: | ||||
| 
 | ||||
| - Vytvorte distribuovaný vyhľadávací index pre dáta zo slovenského internetu.  Cieľom je vytvoriť vyhľadávanie na (skoro) celom slovenskom internete. | ||||
| 
 | ||||
| Spolupráca Michal Stromko, Kristián Sopkovič. | ||||
| Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko | ||||
| 
 | ||||
| Stretnutie 17.1.2025 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Pokus o indexovanie na Quadre, ale treba nainštalovať Anaconda pre závislosti. | ||||
| - Prezentácia. | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 16.12. | ||||
| 
 | ||||
| - Vytvorený indexer | ||||
| - Vytvorené rozhranie vyhľadávania | ||||
| - Deployment Milvus. | ||||
| - Zatiaľ je indexovanie pomalé na domácej karte. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Dajte kódy na GIT. | ||||
| - Vyskúšajte indexovanie na servri QUADRO | ||||
| - Pracujte na textovej časti. | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 22.11. | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Použitý HELM chart pre Milvus. Sú potrebné úpravy konfigurácie pre ARM - vymeniť Docker IMAGES. | ||||
| - PV je vyriešené. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Skripty aj konfiguráky dávajte na GIT. | ||||
| - Urobte skripty pre "prípravu" klastra.  | ||||
| - Urobte skripty pre nasadenie Mulvus na Klaster. | ||||
| - Pokračujte v písaní práce. | ||||
| 
 | ||||
| 
 | ||||
| Zásobík úloh: | ||||
| 
 | ||||
| - Keď to bude hotové, vyskúšajte skripty na DeskPI Super6C Klastri, p. Huzenko. | ||||
| - Urobte benchamark na Milvus deployment. | ||||
| - Naštudujte si Ansible a urobíte Ansible konfiguráciu microk8s. | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 7.11.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Riešenie problémov súvisiacich s PersistentVolume | ||||
| - Práca na texte | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 15.10.2024 | ||||
| 
 | ||||
|  | ||||
| @ -15,8 +15,48 @@ Ciel: | ||||
| 
 | ||||
| Overiť a zlepšiť možnosti generovania jednotkových testov | ||||
| 
 | ||||
| Stretnutie 12.12.2024 | ||||
| 
 | ||||
| Stretnutie online 5.2.2023: | ||||
| Stav: | ||||
| 
 | ||||
| - Metrika Pass@K sa používa na vyhodnotenie generovaného kódu. Meria, koľko automatických textov bolo splnených. Používa sa aj BLEU, verzia CodeBLEU. CodeJudge. | ||||
| - Na testovanie generovaných testov sa používajú: vykonanie produkčného kódu, pokrytie testov, mutácie kódu, statická analýza generovaného kódu. | ||||
| - Vyskúšaný model polycoder (na C),codeparrot (na python) na kaggle. Code T5 zatiaľ nie je vyskúšaný.  | ||||
| - Copilot by mal byť pre študentov zadarmo. Študneti majú aj Azure kredity. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pokračujte v otvorených úlohách. | ||||
| - Pripravte sa na predobhajobu - prezentácia s výsledkami.  | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Pomocou vybranej množiny porovnajte vybrané modely pre generovanie kódu. | ||||
| 
 | ||||
| Stretnutie 14.11. 2924 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Vyhľadané modely na generovanie kódu. Nie sú vyskúšané. Codex, CodeParrot a Incoder. Na unittesty CodeT5 a AthenaTest. | ||||
| - Rozčítané knihy podľa pokynov. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| Zistite odpovede na tieto otázky: | ||||
| - [x] Ako zistíme, že vygenerovaný kód je dobrý. | ||||
| - [x] Ako zistíme, že vygenerovaný test vyhovuje špecifikácii? | ||||
| - [-] Vypracujte písomný prehľad modelov pre generovanie kódu. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Napíšte na akej neurónovej sieti sú založené, aké sú veľk=, aké jazyky podporujú, aké výsledky dosahujú. Použite odborné články. Odborné články nájdete na google scholar alebo scopus. | ||||
| - [-] Pripravte vzorovú dátovú množinu. Hotové testy, implementácie aj dokumentáciu. Možno vybrať existujúci open source projekt alebo hotovú dátovú množinu.  | ||||
| - [-] Vyskúšajte niekoľko jazykových modelov pre generovanie kódu aj generovanie testov.  | ||||
| - [ ] Do diplomovej práce vypracujte experimenty kde vyhodnotíte jazykové modely pre generovanie testov v rôznych prostrediach.  | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Dotrénujte model pre lepšie generovansie testov.  | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie online 5.2.2024: | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
|  | ||||
| @ -15,9 +15,25 @@ Ciel: | ||||
| 
 | ||||
| - Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku. | ||||
| - Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset. | ||||
| - Strjový preklad vybranej množiny instruct. | ||||
| - Strojový preklad vybranej množiny instruct. | ||||
| 
 | ||||
| Stretnutie 14.11.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle. | ||||
| - Pokračuje písanie. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup. | ||||
| - Pokračujte v púísaní | ||||
| - Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely. | ||||
| 
 | ||||
| Zásobník úloh: | ||||
|   | ||||
| - Dotrénujte aj iné modely a porovnajte výsledky. | ||||
| - Zverejnite dotrénovaný model alebo viac modelov  na HF HUB. využijeme TUKE-KEMT org.  | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 15.10. | ||||
|  | ||||
| @ -2,13 +2,34 @@ | ||||
| title: Martin Šarišský | ||||
| published: true | ||||
| taxonomy: | ||||
|     category: [vp2023,bp2024] | ||||
|     category: [vp2023,bp2024,dp2026] | ||||
|     tag: [chatbot,rasa,dialog,nlp] | ||||
|     author: Daniel Hladek | ||||
| --- | ||||
| 
 | ||||
| rok začiatku štúdia: 2021 | ||||
| 
 | ||||
| # Diplomová praca 2026 | ||||
| 
 | ||||
| Ciele: | ||||
| 
 | ||||
| - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. | ||||
| 
 | ||||
| Príprava: | ||||
| 
 | ||||
| - Zopakujte si Python.  | ||||
| - Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama.  | ||||
| - Oboznámte sa s framewworkom LangChain.  | ||||
| - pozrite si LangChain Transformers Agents.  | ||||
| - Ako funguje FunctionCalling - AgentTools?.  | ||||
| - Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar. | ||||
| - Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia.  Zisite čo je to "few shot" prompting.   | ||||
| - Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| # Bakalárska práca 2024 | ||||
| 
 | ||||
| 
 | ||||
|  | ||||
| @ -2,13 +2,30 @@ | ||||
| title: Matej Ščišľak | ||||
| published: true | ||||
| taxonomy: | ||||
|     category: [bp2024] | ||||
|     category: [bp2024, dp2026] | ||||
|     tag: [chatbot,rasa,dialog,nlp] | ||||
|     author: Daniel Hladek | ||||
| --- | ||||
| 
 | ||||
| rok začiatku štúdia: 2021 | ||||
| 
 | ||||
| Ciele: | ||||
| 
 | ||||
| - Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov. | ||||
| 
 | ||||
| Príprava: | ||||
| 
 | ||||
| - Zopakujte si Python.  | ||||
| - Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama.  | ||||
| - Oboznámte sa s framewworkom LangChain.  | ||||
| - pozrite si LangChain Transformers Agents.  | ||||
| - Ako funguje FunctionCalling - AgentTools?.  | ||||
| - Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar. | ||||
| - Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia.  Zisite čo je to "few shot" prompting.   | ||||
| - Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI. | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| # Bakalárska práca 2024 | ||||
| 
 | ||||
| 
 | ||||
|  | ||||
| @ -10,6 +10,73 @@ taxonomy: | ||||
| 
 | ||||
| rok začiatku štúdia: 2021 | ||||
| 
 | ||||
| # Bakalárska práca 2025 | ||||
| 
 | ||||
| Zadanie: | ||||
| 
 | ||||
| 1. Vypracujte prehľad neurónových sietí a metód na vykonávanie opravy textu.  | ||||
| 2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu. | ||||
| 3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia. | ||||
| 
 | ||||
| Poznámky 21.1.2025 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Napísané skripty pre vyhodnotneie "masked" language modeling. | ||||
| - Vyhodnotené modely SlovakBERT a multilingualbert BASE. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Vyberte vhodnú množinu slovenských textov. | ||||
| - Pripravte množinu pre úlohu detekcie chýbajúcej alebo nadbytočnej interpunkcie - (bodka, čiarka, otáznik, výkričník, dvojbodka).  | ||||
| - Pripravte množinu pre pre úlohu opravy uť identifikovaého preklepu. | ||||
| - Vyhodnotte viaceré modely. | ||||
| - Pokračujte v písaní práce podľa nového zadania. | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Využite modely SlovakT5 a ByT5. | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 17.12. | ||||
| 
 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Práca na skriptoch, nainštalovaný Pytorch, transformers, fairseq,  | ||||
| - Skript na prípravu dát - spustený.  | ||||
| - chyba pri spustení trénovacieho skriptu - chýba executable. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - ! Začnite pracovať na písomnej časti. | ||||
| - Nainštalujte si Marian NMT. | ||||
| - Vypýtajte si Marian Model na opravu od Ing. Maroš Harahus.  | ||||
| - Vyskúšajte ho a vyhodnotte pomocou metriky WER. Zistite si čo je to WER, napíšte to do práce | ||||
| - Nainštalujte si model ByT5 z knižnice HF Transformers. Zistie čo to je, napíšte to do práce.  | ||||
| - Vyskúšajte model ByT5 na korekciu textu. Vyhodnoote ho.  | ||||
| - Vyskúšajte model SlovakBERT na detekciu preklepov. Model určuje pravdepodobnosť každého slova vo vete. Model vie doplniť chýbajúce slovo, alebo najpravdepodobnejšie slovo. Zistite že ako, napíšte to do práce.  | ||||
| - Do práce doplnte odkazy na vedecké články.  | ||||
| 
 | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Natrénujte model. | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny. | ||||
| - Textová časť je neuspokojivá. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Naučte sa trénovať systém pre strojový preklad.  | ||||
| - Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký.  | ||||
| - Natrénujte a vyhodnotte model. | ||||
| - Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar. | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| # Bakalárska práca 2024 | ||||
| 
 | ||||
| Korekcia textu pomocou neurónových sietí | ||||
| @ -32,7 +99,7 @@ Stav: | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Natrénujte jednoduchý ľubovoľný  model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train | ||||
| - Natrénujte jednoduchý ľubovoľný  model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train. | ||||
| - Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho. | ||||
| - Pokračujte v písaní bakalárskej práce. | ||||
| 
 | ||||
|  | ||||
| @ -14,6 +14,7 @@ rok začiatku štúdia: 2022 | ||||
| ## Bakalárska práca 2025 | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| Návrh na tému: | ||||
| 
 | ||||
| Korekcia textu pomocou neurónových sietí | ||||
| @ -22,6 +23,46 @@ Korekcia textu pomocou neurónových sietí | ||||
| -    Aplikujte existujúci model na opravu textu vo vybraných úlohách. | ||||
| -    Vyhodnnotte model pomocou overovacej množiny. | ||||
| 
 | ||||
| Návrh na zadanie práce: | ||||
| 
 | ||||
| 1. Napíšte prehľad metód opravy textu pomcou neurónových modelov. | ||||
| 2. Zostavte trénovací korpus a natrénujte vybraný model na úlohu opravy textu v slovenskom jazyku. | ||||
| 3. Navrhnite experiment a vyhodnotte kvalitu natrénovaného neurónového modelu. | ||||
| 4. Identifikujte možné zlepšenia navrhnutého modelu. | ||||
| 
 | ||||
| Stretnutie 19.12.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Nové trénovanie Byt5 z mc4. Vyzerá, že to ide. Vlastný trénovací skript, skript od Ing. Harahusa. | ||||
| - Text prepísaný do Latex, WIP | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 22.11.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - WikiEdits nefunguje.  | ||||
| - Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky. | ||||
| - Na trénovanie sa používa mt5-large. | ||||
| - Konzultácia Ing. Harahusom PhD. | ||||
| - Trénovanie modelu. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pokračujte v písaní podľa pokynov nižšie. | ||||
| - Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein. | ||||
| - Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base. | ||||
| - Pokračujte s "base modelmi". | ||||
| - Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný.   | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4. | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 3.10.2024 | ||||
| 
 | ||||
| Stav: | ||||
|  | ||||
| @ -1,5 +1,5 @@ | ||||
| --- | ||||
| title: Daaniil Huzenko | ||||
| title: Daniil Huzenko | ||||
| published: true | ||||
| taxonomy: | ||||
|     category: [bp2025] | ||||
| @ -18,6 +18,77 @@ Predbežný názov: | ||||
| 
 | ||||
| Testovanie hybridného klaudu s využiťím kombinácie verejného a privátneho riešenia | ||||
| 
 | ||||
| Cielom práce je vytvorenie vzelávacích materiálov o Kubernetes a funkčného prototypu privátneho klastra Kubernetes . | ||||
| 
 | ||||
| Stetnutie 22.11.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Klaster funguje. Ku každému node je možné sa pripojiť cez SSH.  | ||||
| - Momentálne notebook slúži ako router.  | ||||
| - Práca na DNS MASQ prideľovanie IP adries z routra. | ||||
| - Microk8s funguje | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Napíšte návod a skripty pre konfiguráciu routra pre K8s klastra SuperC. | ||||
| - Router by mal vedieť: | ||||
|    - prideliť IP adresu v privátnej podsieti pre všetky uzly klastra. | ||||
|    - mal by vedieť konfigurovať (resetovať) klaster pomocou Ansible. | ||||
| - Vyporacujte video a textový tutoriál k inštalácii klastra. | ||||
| - Skripty a návody dajte na GIT. Video nedávajte na GIT.  (dajte na Youtube). | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Router by mal slúžiť ako rozhranie medzi verejnou a súkromnou sieťou - mal by sprostredkovať služby Kubernetes. Dorobte na to skripty Ansible a K8s konfiguráciu - Ingress, Load Balancer, Dashboard. | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 14.11 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - 1 ks klastra je zmontovany | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Napíšte o tom čo je to kontajnerizácia, čo je Kubernetes, stručne o Rpi CM4 a Super6C - opíšte HW. | ||||
| - Píšte o metódach orchestrácie. Čo je to a akými metódami sa to robí? | ||||
| - Napíšte o Ansible. Ako riadiť klaster pomocou Ansible? | ||||
| - Citujte knihy a odborné články. Nájdete to na google scholar. | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Pripravte skripty Ansible pre "setup" klastra | ||||
| - Pripravte skripty pre "reinstall" klastra poocou Ansible | ||||
| - Zistite ako funguje netboot na rpi, skúste reinstall cez networkboot. | ||||
| 
 | ||||
| Stretnutie 12.11.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Písanie draftu BP | ||||
| - Vyskúšané tutoriály s Minikube. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Zmontujte Raspberry Pi klaster: 1x skrinka s príslušenstvom, 6x RPI Compute Module 4, 1 doska a zdroj SUper6C. | ||||
| - Urobte videoblog o tom ako zmontovať RPI klaster.  Akým jazykom? Po rusky alebo po slovensky?  | ||||
| - Zistite čo je to MicroK8s | ||||
|  - Pokračujte v písaní BP. Používajte citácie na odbornú literatúru ()knihy a odborné články. Do BP píšte aj o hardvéri ktorý ste dostali. Odborné články nájdete na google scholar. | ||||
|  - Prihláste sa na Azure KLaud. | ||||
| 
 | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Oživte klaster a nainštalujte na neho MicroK8s. Inštaláciu urobte ľahko opakovateľnú pomocou skriptu. | ||||
| - Nainštalujte monitorovacie nástroje na klaster. | ||||
| - Urobte deployment aplikácie na privány klaster aj na verejnmý klaster (AKS). | ||||
| - Urobte druhý videoblog o inštalácii softvéru na náš klaster. | ||||
| - Napíšte textový blog o tom čo ste urobili - cieľ je poučiť a inšpirovať študentov. | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 4.10.2024 | ||||
| 
 | ||||
| @ -28,7 +99,8 @@ Naštudovaný Kubernetes, nainštalované Minikube | ||||
| Úlohy: | ||||
| 
 | ||||
| 
 | ||||
| - Napíšte draft BP. Napíšte čo je to Kuberntes a ako sa používa.čo je to kontajnerizácia | ||||
| - Napíšte, aké nástroje sa používajú na monitoring klastra. | ||||
| - Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ – Calico. | ||||
| - [x] Napíšte draft BP. Napíšte čo je to Kubernetes a ako sa používa.čo je to kontajnerizácia | ||||
| - [x] Napíšte, aké nástroje sa používajú na monitoring klastra. | ||||
| - [-] Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ – Calico. | ||||
| 
 | ||||
| 
 | ||||
|  | ||||
| @ -29,13 +29,29 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí | ||||
| 
 | ||||
| RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation | ||||
| 
 | ||||
| 8.11.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Modifikovaný frontend (Tailwind) | ||||
| - Vytvorený Docker Images, Elasticsearch databáza aj index. | ||||
| - Je aj skript na indexovanie. | ||||
| - Vyskúšaný Mistral Small a Mistral Large cez API- | ||||
| 
 | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pracujte na texte, pošlite mi draft. | ||||
| - Pripojte sa na server quadro.kemt.fei.tuke.sk (cez ssh z tuke siete). Použite prostredie Anaconda. | ||||
| - Na inferenciu (beh modelu) vyskúšajte vllm. Alebo ollama alebo localai. Dobrý model pre slovenčinu je Qwen2.5  alebo slovak-t5-base. Na vektorvé vyhľadávnaie je zatiaľ najlepší model multilingual E5. Možno aj BGE - nie je overený. | ||||
| 
 | ||||
| 17.10.20204 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Funguje web rozhranie aj vyhľadávanie. | ||||
| - Kódy sú na gite. Využíva sa Flask, Mistral API pre Mistral-Small (nebeží lokálne). Na vektory MiniLM2 | ||||
| - Napísané poznámky o praktickej časti. | ||||
| - Napísané poznámky o praktickej časti.  | ||||
| 
 | ||||
| 
 | ||||
| Úlohy | ||||
|  | ||||
| @ -12,8 +12,6 @@ rok začiatku štúdia: 2022 | ||||
| 
 | ||||
| # Bakalárska práca 2025 | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| Cieľ: | ||||
| 
 | ||||
| - Zlepšenie slovenského modelu  pre rozpoznávanie pomenovaných entít. | ||||
| @ -23,6 +21,38 @@ Do budúcnosti: | ||||
| - Vypracovanie webového dema | ||||
| - Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty). | ||||
| 
 | ||||
| Návrh na zadanie bakalárskej práce: | ||||
| 
 | ||||
| 1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku. | ||||
| 2. Napíšte prehľad existujúcich dátových množin, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít. | ||||
| 3. Vyberte vhodný model a dátovú množinu a natrénujte  a vyhodnotte model. | ||||
| 4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít. | ||||
| 5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomentovaných entít. | ||||
| 
 | ||||
| Stretnutie 20.12.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Splnené úlohy z posledného stetnutia | ||||
| - Text je v dobrom stave, treba ešte použiť šablónu. | ||||
| 
 | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pripravte si prezentáciu. | ||||
| - Textu dajte na moodle, skripty dajte na git. | ||||
| - Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO  (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články. | ||||
| - Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky. | ||||
| 
 | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Zostavte webové demo | ||||
| - Pripravte experiment pre ukrajinský a ruský jazyk. | ||||
| - Priprave Dockerfile pre Vaše demo | ||||
| - Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty. | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 30.10.2024 | ||||
| 
 | ||||
| Stav: | ||||
| @ -33,10 +63,10 @@ Stav: | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. | ||||
| - Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers. | ||||
| - Pokračujte v písaní BP.  Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? | ||||
| - Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification | ||||
| - [x] Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. | ||||
| - [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers. | ||||
| - [x] Pokračujte v písaní BP.  Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? | ||||
| - [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
|  | ||||
| @ -27,6 +27,29 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov. | ||||
| - Na adaptáciu použite "prompting" a "LORA". | ||||
| - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). | ||||
| 
 | ||||
| Stretnutie 12.11.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky. | ||||
| - Na vyhodnotenie použitý svoj skript a framework llm-eval-harness. | ||||
| - Pokračuje písanie. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pošlite mi draft BP na ďalšie stretnutie. | ||||
| - Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov. | ||||
| - Pokračujte v písaní. | ||||
| - Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT . | ||||
| - Napíšte ChatGPT prompt na detekciu nenávistnej reči.  | ||||
| - Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab. | ||||
| 
 | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Zistite čo je to PEFT a kvantizácia a ako sa to používa.  | ||||
| - Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT. | ||||
| 
 | ||||
| Stretnutie 18.10.2024 | ||||
| 
 | ||||
| Stav: | ||||
| @ -46,9 +69,8 @@ Stav: | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.  | ||||
| - Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. | ||||
| - Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.  | ||||
| - [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.  | ||||
| - [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.  | ||||
| 
 | ||||
| Stretnutie 3.10.2024 | ||||
| 
 | ||||
|  | ||||
| @ -14,7 +14,7 @@ rok začiatku štúdia: 2022 | ||||
| Generovanie otázok zo zadaného textu. | ||||
| 
 | ||||
| 
 | ||||
| Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces  RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation | ||||
| Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces  RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation | ||||
| 
 | ||||
| Nové nápady: | ||||
| 
 | ||||
| @ -25,9 +25,34 @@ Nové nápady: | ||||
| Ako na to: | ||||
| 
 | ||||
| - Natrénujte generatívny model pre generovanie otázok. Použite existujúci skript a množinu SKQUAD. | ||||
| - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom.  | ||||
| - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom.  | ||||
| - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. | ||||
| 
 | ||||
| Stretnutie 22.11.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Napísané  o mt5 a umt5 v BP. | ||||
| - Urobené dotrénovanie na generovanie otázok.  | ||||
| - Napísaná tabuľka s výsledkami experimentov. Metriky BLEU a ROGUE. | ||||
| - Napísaný skript, skript je na gite.  | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pokračujte v písaní práce. Napíšte aj o metrikách vyhodnotenia. | ||||
| - Vyhľadajte a stručne opíšte vedecké články o generovaní otázok. Na vyhľadanie použite Google scholar. | ||||
| - Pridajte slovak t5 base model do experimentov. | ||||
| - Dotrénujte Slovak Falcon. Tam bude treba iný skript. | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Vymyslieť systém - natrénovať meurónku na návrh "odpovede". | ||||
| - Vyskúšať generovať otázky bez zadanej odpovede. Odpoveď generujte pomocou modelu. Model pre automatické odpovede už je na HF Hube: slovakbert-skquad. | ||||
| - Vyradiť také otázky, na ktoré systém nevie dopovedať. | ||||
| - Skúsiť generovať otázky z medicínskeho textu. | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 18.10.2024 | ||||
| 
 | ||||
| Stav: | ||||
|  | ||||
| @ -12,24 +12,77 @@ rok začiatku štúdia: 2022 | ||||
| 
 | ||||
| # Bakalárska práca 2025 | ||||
| 
 | ||||
| Názov: Testovanie v klaudového riešenia na platforme Kuberntes | ||||
| Názov: Kontinuálne nasadenie a testovanie aplikácie v klaudovom prostredí.  | ||||
| 
 | ||||
| Úlohy BP: | ||||
| 
 | ||||
| - Vypracujte písomný prehľad verejných klaudových služieb pre podporu  procesu a nasadenia aplikácie. | ||||
| - Vypracujte písomný prehľad prostriedkov kontinuálneho nasadenie a integrácie. | ||||
| - Vytvorte webovú aplikáciu zloženú z viacerých komponentov a upravte ju do podoby vhodnej na nasadenie v klaude. K aplikácii vytvorte automatické testy. | ||||
| - Vyberte vhodné klaudové riešenia pre nasadenie Vašej aplikácie a vytvorte skripty pre nasadenie aplikácie. Opíšte architektúru Vašej aplikácie. | ||||
| - Vytvorte a opíšte proces kontinuálneho nasadenia a integrácie zmien do Vašej aplikácie pomocou vybraných klaudových služieb.  | ||||
| 
 | ||||
| 
 | ||||
| Vedúci: doc. Matúš Pleva PhD. | ||||
| 
 | ||||
| Nápad: | ||||
| 
 | ||||
| - Vytvorič webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT | ||||
| - Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD. | ||||
| 
 | ||||
| Stretnutie 13.12.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - CI-CD GIT HUB pipeline pre backend aj frontend. | ||||
| - Dockerfile je, zatiaľ to nefunguje s Azure Cloud, funguje lokalne. Registry zatiaľ nefunguje. | ||||
| - Auth cez JWT Token do LocalStorage. | ||||
| - Vyskúšaný Docker Compose, zatiaľ nefunguje na lokálny klaster. | ||||
| 
 | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Zistiť čo je Registry a ako to funguje. | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 8.11.2024 | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Backend SpringBoot, frontend React-Next.js. | ||||
| - Urobená základná autentifikácia pomocou HTTP Basic Auth. | ||||
| - Vyskúšaná kontajnerizácia. | ||||
| - Kódy sú na GitHUBe. https://github.com/MrSid333/bankapp.git | ||||
| - Aktivované Azure a Azure PostgreSQL aj úložisko. Zatiaľ nie je prepojené.  úložisko. | ||||
| - Naštudované GITHUB CI-CD. | ||||
| - Nainštalované minikube. | ||||
| - Práca na textoch. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pokračujte v otvorených úlohách.  | ||||
| - Vytvorte nasadenie aplikácie pomocou Kubernetes. | ||||
| - Napíšte automatické testy a zostavte Github CI-CD pipeline.  | ||||
| - Zistite aké obmedzenia má GitHUB Pipeline. | ||||
| - Píšte BP pošlite mi draft. | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Vytvorte nasadenie Vašej aplikácie do Azure a skritpy pre nasadenie dajte na GitHUB. Dávajte pozor aby ste nezverejnili Vaše prístupové údaje. | ||||
| - Napíšte článok do "online média" o CI CD v klaude vo forme tutoriálu pre študentov. Z tutoriálu sa študent dozvie, čo je to CI CD, ako to vytvoriť pre konkretny projekt na GITHUbe. | ||||
| - Zostavte pipeline pomocou iného nástroja (Azure, Jenkins) a porovnajte ich. | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 3.10.2024 | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| -	Preštudujte si platformu Kuberntes. Napíšte čo je to. Napíšte čo je to kontajnerizácia. | ||||
| -	Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať. | ||||
| -	Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD násstorje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure. | ||||
| -	Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikrosluťžieb a bude využívať klaudové úložisko | ||||
| -	Ku  aplikácii navrhnite niekoľko automatických testov. | ||||
| -	Zostavte CI CD P(ipeline pre automatické zostavenie a testovanie aplikácie | ||||
| -	[x] Preštudujte si platformu Kubernetes. Napíšte čo je to. Napíšte čo je to kontajnerizácia. | ||||
| -	[x] Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať. | ||||
| -	[x] Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikroslužieb a bude využívať klaudové úložisko. | ||||
| -	Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD nástroje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure. | ||||
| -	Ku aplikácii navrhnite niekoľko automatických testov. | ||||
| -	Zostavte CI CD Pipeline pre automatické zostavenie a testovanie aplikácie | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
|  | ||||
| @ -30,7 +30,27 @@ Návrh na tému: | ||||
| 
 | ||||
| Spolupráca Oleh Poiasnik | ||||
| 
 | ||||
| Stretnutie: | ||||
| Stav: | ||||
| 
 | ||||
| - Práca na úlohách z minulého stretnutia, vyskúšaný RAGAS.  | ||||
| - Nainštalovaný a vyskúšaný systém od p . Poiasnika. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pripravte "vzorovú" množinu na testovanie. | ||||
| - Pripravte testovaciu množinu. Množina by sa mala skladať z čo najväčšieho množstva príkladov.  | ||||
| - Vyskúšajte testovaciu množinu pomocou RAGAS a modelov ktoré používa p. Poiasnik. Vyhodnotte modely pomocou množiny. | ||||
| - Kódy dávajte na GIT (napr. branch alebo adresár p Poiasnik GIT). | ||||
| - Pokračujte v písomných úlohách. Hľadajte články cez scholar a píšte si poznámky. Do BP. | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Pripravte (nakódujte, odkopírovať) postup vyhľadávania podobný ako "reálny systém", ale využíval RAGAS. | ||||
| - Pripravte testovacie API pre RAG systém. Bude to funkcia alebo URL cez ktorú sa bude dať systém testovať.  | ||||
| - Pomocou metriky a množiny vyhodnotte reálny systém. | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 11.1.: | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| @ -39,17 +59,15 @@ Stav: | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| 
 | ||||
| - Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia. | ||||
| - Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html | ||||
| - Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky.  | ||||
| - Zistite a opíšte aké metriky sa používajú. | ||||
| - [x] Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. Optimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia. | ||||
| - [x] Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html | ||||
| - [ ] Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky.  | ||||
| - [-] Zistite a opíšte aké metriky sa používajú. Ku každej metrike je potrebný odkaz na článok.  | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. | ||||
| - Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede.  | ||||
| - Napíšte príklady alebo použite generatívny model | ||||
| - [-] Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede. | ||||
| - [ ] Napíšte príklady alebo použite generatívny model | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
|  | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user