forked from KEMT/zpwiki
Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki
This commit is contained in:
commit
98c2db90c6
@ -26,7 +26,61 @@ Ciel:
|
||||
|
||||
- Vytvorte distribuovaný vyhľadávací index pre dáta zo slovenského internetu. Cieľom je vytvoriť vyhľadávanie na (skoro) celom slovenskom internete.
|
||||
|
||||
Spolupráca Michal Stromko, Kristián Sopkovič.
|
||||
Spolupráca Michal Stromko, Kristián Sopkovič. Huzenko
|
||||
|
||||
Stretnutie 17.1.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Pokus o indexovanie na Quadre, ale treba nainštalovať Anaconda pre závislosti.
|
||||
- Prezentácia.
|
||||
|
||||
|
||||
|
||||
Stretnutie 16.12.
|
||||
|
||||
- Vytvorený indexer
|
||||
- Vytvorené rozhranie vyhľadávania
|
||||
- Deployment Milvus.
|
||||
- Zatiaľ je indexovanie pomalé na domácej karte.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Dajte kódy na GIT.
|
||||
- Vyskúšajte indexovanie na servri QUADRO
|
||||
- Pracujte na textovej časti.
|
||||
|
||||
|
||||
Stretnutie 22.11.
|
||||
|
||||
Stav:
|
||||
|
||||
- Použitý HELM chart pre Milvus. Sú potrebné úpravy konfigurácie pre ARM - vymeniť Docker IMAGES.
|
||||
- PV je vyriešené.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Skripty aj konfiguráky dávajte na GIT.
|
||||
- Urobte skripty pre "prípravu" klastra.
|
||||
- Urobte skripty pre nasadenie Mulvus na Klaster.
|
||||
- Pokračujte v písaní práce.
|
||||
|
||||
|
||||
Zásobík úloh:
|
||||
|
||||
- Keď to bude hotové, vyskúšajte skripty na DeskPI Super6C Klastri, p. Huzenko.
|
||||
- Urobte benchamark na Milvus deployment.
|
||||
- Naštudujte si Ansible a urobíte Ansible konfiguráciu microk8s.
|
||||
|
||||
|
||||
Stretnutie 7.11.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Riešenie problémov súvisiacich s PersistentVolume
|
||||
- Práca na texte
|
||||
|
||||
|
||||
|
||||
Stretnutie 15.10.2024
|
||||
|
||||
|
@ -15,8 +15,48 @@ Ciel:
|
||||
|
||||
Overiť a zlepšiť možnosti generovania jednotkových testov
|
||||
|
||||
Stretnutie 12.12.2024
|
||||
|
||||
Stretnutie online 5.2.2023:
|
||||
Stav:
|
||||
|
||||
- Metrika Pass@K sa používa na vyhodnotenie generovaného kódu. Meria, koľko automatických textov bolo splnených. Používa sa aj BLEU, verzia CodeBLEU. CodeJudge.
|
||||
- Na testovanie generovaných testov sa používajú: vykonanie produkčného kódu, pokrytie testov, mutácie kódu, statická analýza generovaného kódu.
|
||||
- Vyskúšaný model polycoder (na C),codeparrot (na python) na kaggle. Code T5 zatiaľ nie je vyskúšaný.
|
||||
- Copilot by mal byť pre študentov zadarmo. Študneti majú aj Azure kredity.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračujte v otvorených úlohách.
|
||||
- Pripravte sa na predobhajobu - prezentácia s výsledkami.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Pomocou vybranej množiny porovnajte vybrané modely pre generovanie kódu.
|
||||
|
||||
Stretnutie 14.11. 2924
|
||||
|
||||
Stav:
|
||||
|
||||
- Vyhľadané modely na generovanie kódu. Nie sú vyskúšané. Codex, CodeParrot a Incoder. Na unittesty CodeT5 a AthenaTest.
|
||||
- Rozčítané knihy podľa pokynov.
|
||||
|
||||
Úlohy:
|
||||
|
||||
Zistite odpovede na tieto otázky:
|
||||
- [x] Ako zistíme, že vygenerovaný kód je dobrý.
|
||||
- [x] Ako zistíme, že vygenerovaný test vyhovuje špecifikácii?
|
||||
- [-] Vypracujte písomný prehľad modelov pre generovanie kódu. Napíšte aké modely sa používajú, Akým spôsobom sa vyhodnocujú. Napíšte na akej neurónovej sieti sú založené, aké sú veľk=, aké jazyky podporujú, aké výsledky dosahujú. Použite odborné články. Odborné články nájdete na google scholar alebo scopus.
|
||||
- [-] Pripravte vzorovú dátovú množinu. Hotové testy, implementácie aj dokumentáciu. Možno vybrať existujúci open source projekt alebo hotovú dátovú množinu.
|
||||
- [-] Vyskúšajte niekoľko jazykových modelov pre generovanie kódu aj generovanie testov.
|
||||
- [ ] Do diplomovej práce vypracujte experimenty kde vyhodnotíte jazykové modely pre generovanie testov v rôznych prostrediach.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Dotrénujte model pre lepšie generovansie testov.
|
||||
|
||||
|
||||
|
||||
Stretnutie online 5.2.2024:
|
||||
|
||||
Úlohy:
|
||||
|
||||
|
@ -15,9 +15,25 @@ Ciel:
|
||||
|
||||
- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
|
||||
- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
|
||||
- Strjový preklad vybranej množiny instruct.
|
||||
- Strojový preklad vybranej množiny instruct.
|
||||
|
||||
Stretnutie 14.11.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle.
|
||||
- Pokračuje písanie.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup.
|
||||
- Pokračujte v púísaní
|
||||
- Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Dotrénujte aj iné modely a porovnajte výsledky.
|
||||
- Zverejnite dotrénovaný model alebo viac modelov na HF HUB. využijeme TUKE-KEMT org.
|
||||
|
||||
|
||||
Stretnutie 15.10.
|
||||
|
@ -2,13 +2,34 @@
|
||||
title: Martin Šarišský
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [vp2023,bp2024]
|
||||
category: [vp2023,bp2024,dp2026]
|
||||
tag: [chatbot,rasa,dialog,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
||||
rok začiatku štúdia: 2021
|
||||
|
||||
# Diplomová praca 2026
|
||||
|
||||
Ciele:
|
||||
|
||||
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
|
||||
|
||||
Príprava:
|
||||
|
||||
- Zopakujte si Python.
|
||||
- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama.
|
||||
- Oboznámte sa s framewworkom LangChain.
|
||||
- pozrite si LangChain Transformers Agents.
|
||||
- Ako funguje FunctionCalling - AgentTools?.
|
||||
- Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar.
|
||||
- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting.
|
||||
- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
# Bakalárska práca 2024
|
||||
|
||||
|
||||
|
@ -2,13 +2,30 @@
|
||||
title: Matej Ščišľak
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [bp2024]
|
||||
category: [bp2024, dp2026]
|
||||
tag: [chatbot,rasa,dialog,nlp]
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
||||
rok začiatku štúdia: 2021
|
||||
|
||||
Ciele:
|
||||
|
||||
- Zlepšiť generovanie odpovedí pre úlohy vyžadujúce viac krokov.
|
||||
|
||||
Príprava:
|
||||
|
||||
- Zopakujte si Python.
|
||||
- Vyskúšajte si prácu s veľkými jazykovými modelmi. Nainštalujte si oollama.
|
||||
- Oboznámte sa s framewworkom LangChain.
|
||||
- pozrite si LangChain Transformers Agents.
|
||||
- Ako funguje FunctionCalling - AgentTools?.
|
||||
- Zistite ako funguje REACT (Reasoning and Acting) Agent - nájdite článok na Scholar.
|
||||
- Zistite ako funguje dotrénovnaie veľkých jazykových modelov. Zistite čo je to PEFT (LORA, QLORA) a čo je to kvantizácia. Zisite čo je to "few shot" prompting.
|
||||
- Čo je to inferenčný server. Zistite čo je to VLLM, na čo je to dobré. Pozri si LocalAI.
|
||||
|
||||
|
||||
|
||||
# Bakalárska práca 2024
|
||||
|
||||
|
||||
|
@ -10,6 +10,73 @@ taxonomy:
|
||||
|
||||
rok začiatku štúdia: 2021
|
||||
|
||||
# Bakalárska práca 2025
|
||||
|
||||
Zadanie:
|
||||
|
||||
1. Vypracujte prehľad neurónových sietí a metód na vykonávanie opravy textu.
|
||||
2. Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu.
|
||||
3. Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia.
|
||||
|
||||
Poznámky 21.1.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Napísané skripty pre vyhodnotneie "masked" language modeling.
|
||||
- Vyhodnotené modely SlovakBERT a multilingualbert BASE.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Vyberte vhodnú množinu slovenských textov.
|
||||
- Pripravte množinu pre úlohu detekcie chýbajúcej alebo nadbytočnej interpunkcie - (bodka, čiarka, otáznik, výkričník, dvojbodka).
|
||||
- Pripravte množinu pre pre úlohu opravy uť identifikovaého preklepu.
|
||||
- Vyhodnotte viaceré modely.
|
||||
- Pokračujte v písaní práce podľa nového zadania.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Využite modely SlovakT5 a ByT5.
|
||||
|
||||
|
||||
Stretnutie 17.12.
|
||||
|
||||
|
||||
Stav:
|
||||
|
||||
- Práca na skriptoch, nainštalovaný Pytorch, transformers, fairseq,
|
||||
- Skript na prípravu dát - spustený.
|
||||
- chyba pri spustení trénovacieho skriptu - chýba executable.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- ! Začnite pracovať na písomnej časti.
|
||||
- Nainštalujte si Marian NMT.
|
||||
- Vypýtajte si Marian Model na opravu od Ing. Maroš Harahus.
|
||||
- Vyskúšajte ho a vyhodnotte pomocou metriky WER. Zistite si čo je to WER, napíšte to do práce
|
||||
- Nainštalujte si model ByT5 z knižnice HF Transformers. Zistie čo to je, napíšte to do práce.
|
||||
- Vyskúšajte model ByT5 na korekciu textu. Vyhodnoote ho.
|
||||
- Vyskúšajte model SlovakBERT na detekciu preklepov. Model určuje pravdepodobnosť každého slova vo vete. Model vie doplniť chýbajúce slovo, alebo najpravdepodobnejšie slovo. Zistite že ako, napíšte to do práce.
|
||||
- Do práce doplnte odkazy na vedecké články.
|
||||
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Natrénujte model.
|
||||
|
||||
Stav:
|
||||
|
||||
- Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny.
|
||||
- Textová časť je neuspokojivá.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Naučte sa trénovať systém pre strojový preklad.
|
||||
- Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký.
|
||||
- Natrénujte a vyhodnotte model.
|
||||
- Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar.
|
||||
|
||||
|
||||
|
||||
# Bakalárska práca 2024
|
||||
|
||||
Korekcia textu pomocou neurónových sietí
|
||||
@ -32,7 +99,7 @@ Stav:
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train
|
||||
- Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train.
|
||||
- Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho.
|
||||
- Pokračujte v písaní bakalárskej práce.
|
||||
|
||||
|
@ -14,6 +14,7 @@ rok začiatku štúdia: 2022
|
||||
## Bakalárska práca 2025
|
||||
|
||||
|
||||
|
||||
Návrh na tému:
|
||||
|
||||
Korekcia textu pomocou neurónových sietí
|
||||
@ -22,6 +23,46 @@ Korekcia textu pomocou neurónových sietí
|
||||
- Aplikujte existujúci model na opravu textu vo vybraných úlohách.
|
||||
- Vyhodnnotte model pomocou overovacej množiny.
|
||||
|
||||
Návrh na zadanie práce:
|
||||
|
||||
1. Napíšte prehľad metód opravy textu pomcou neurónových modelov.
|
||||
2. Zostavte trénovací korpus a natrénujte vybraný model na úlohu opravy textu v slovenskom jazyku.
|
||||
3. Navrhnite experiment a vyhodnotte kvalitu natrénovaného neurónového modelu.
|
||||
4. Identifikujte možné zlepšenia navrhnutého modelu.
|
||||
|
||||
Stretnutie 19.12.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Nové trénovanie Byt5 z mc4. Vyzerá, že to ide. Vlastný trénovací skript, skript od Ing. Harahusa.
|
||||
- Text prepísaný do Latex, WIP
|
||||
|
||||
|
||||
Stretnutie 22.11.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- WikiEdits nefunguje.
|
||||
- Trénovanie na korpuse 1 kníh. Program zmení písmená, urobí gramatické chyby. Problém je v tom, že dát na natrénovanie je málo. BLEU ROUGE nie sú dobré metriky.
|
||||
- Na trénovanie sa používa mt5-large.
|
||||
- Konzultácia Ing. Harahusom PhD.
|
||||
- Trénovanie modelu.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračujte v písaní podľa pokynov nižšie.
|
||||
- Implemenujte metódu vyhodnotenia WER-CER-SER. Použite Python balíček alebo ex. kód. python-levenshtein.
|
||||
- Vyhodnnotte model "zero shot" - bez dotrénovnaia. Vyhodnotte viac modelov. Môžťete vyskúšať aj Slovak Falcon, slovak t5 base.
|
||||
- Pokračujte s "base modelmi".
|
||||
- Vyskúšajte opravu textu pomocou "promptu". Použite veľký jazykový model. Vyberte vhodný, napr. chatgpt alebo iný.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Dotrénujte model typu t5-base na väčšom množstve dát. MNôžete použiť webový korpus - mc4.
|
||||
|
||||
|
||||
|
||||
|
||||
Stretnutie 3.10.2024
|
||||
|
||||
Stav:
|
||||
|
@ -1,5 +1,5 @@
|
||||
---
|
||||
title: Daaniil Huzenko
|
||||
title: Daniil Huzenko
|
||||
published: true
|
||||
taxonomy:
|
||||
category: [bp2025]
|
||||
@ -18,6 +18,77 @@ Predbežný názov:
|
||||
|
||||
Testovanie hybridného klaudu s využiťím kombinácie verejného a privátneho riešenia
|
||||
|
||||
Cielom práce je vytvorenie vzelávacích materiálov o Kubernetes a funkčného prototypu privátneho klastra Kubernetes .
|
||||
|
||||
Stetnutie 22.11.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Klaster funguje. Ku každému node je možné sa pripojiť cez SSH.
|
||||
- Momentálne notebook slúži ako router.
|
||||
- Práca na DNS MASQ prideľovanie IP adries z routra.
|
||||
- Microk8s funguje
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Napíšte návod a skripty pre konfiguráciu routra pre K8s klastra SuperC.
|
||||
- Router by mal vedieť:
|
||||
- prideliť IP adresu v privátnej podsieti pre všetky uzly klastra.
|
||||
- mal by vedieť konfigurovať (resetovať) klaster pomocou Ansible.
|
||||
- Vyporacujte video a textový tutoriál k inštalácii klastra.
|
||||
- Skripty a návody dajte na GIT. Video nedávajte na GIT. (dajte na Youtube).
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Router by mal slúžiť ako rozhranie medzi verejnou a súkromnou sieťou - mal by sprostredkovať služby Kubernetes. Dorobte na to skripty Ansible a K8s konfiguráciu - Ingress, Load Balancer, Dashboard.
|
||||
|
||||
|
||||
Stretnutie 14.11
|
||||
|
||||
Stav:
|
||||
|
||||
- 1 ks klastra je zmontovany
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Napíšte o tom čo je to kontajnerizácia, čo je Kubernetes, stručne o Rpi CM4 a Super6C - opíšte HW.
|
||||
- Píšte o metódach orchestrácie. Čo je to a akými metódami sa to robí?
|
||||
- Napíšte o Ansible. Ako riadiť klaster pomocou Ansible?
|
||||
- Citujte knihy a odborné články. Nájdete to na google scholar.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Pripravte skripty Ansible pre "setup" klastra
|
||||
- Pripravte skripty pre "reinstall" klastra poocou Ansible
|
||||
- Zistite ako funguje netboot na rpi, skúste reinstall cez networkboot.
|
||||
|
||||
Stretnutie 12.11.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Písanie draftu BP
|
||||
- Vyskúšané tutoriály s Minikube.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Zmontujte Raspberry Pi klaster: 1x skrinka s príslušenstvom, 6x RPI Compute Module 4, 1 doska a zdroj SUper6C.
|
||||
- Urobte videoblog o tom ako zmontovať RPI klaster. Akým jazykom? Po rusky alebo po slovensky?
|
||||
- Zistite čo je to MicroK8s
|
||||
- Pokračujte v písaní BP. Používajte citácie na odbornú literatúru ()knihy a odborné články. Do BP píšte aj o hardvéri ktorý ste dostali. Odborné články nájdete na google scholar.
|
||||
- Prihláste sa na Azure KLaud.
|
||||
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Oživte klaster a nainštalujte na neho MicroK8s. Inštaláciu urobte ľahko opakovateľnú pomocou skriptu.
|
||||
- Nainštalujte monitorovacie nástroje na klaster.
|
||||
- Urobte deployment aplikácie na privány klaster aj na verejnmý klaster (AKS).
|
||||
- Urobte druhý videoblog o inštalácii softvéru na náš klaster.
|
||||
- Napíšte textový blog o tom čo ste urobili - cieľ je poučiť a inšpirovať študentov.
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
Stretnutie 4.10.2024
|
||||
|
||||
@ -28,7 +99,8 @@ Naštudovaný Kubernetes, nainštalované Minikube
|
||||
Úlohy:
|
||||
|
||||
|
||||
- Napíšte draft BP. Napíšte čo je to Kuberntes a ako sa používa.čo je to kontajnerizácia
|
||||
- Napíšte, aké nástroje sa používajú na monitoring klastra.
|
||||
- Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ – Calico.
|
||||
- [x] Napíšte draft BP. Napíšte čo je to Kubernetes a ako sa používa.čo je to kontajnerizácia
|
||||
- [x] Napíšte, aké nástroje sa používajú na monitoring klastra.
|
||||
- [-] Vyskúšajte a opíšte nástroj Prometheus, Istio. Zistite čo je service-mesh. Čo je „network fabric“ – Calico.
|
||||
|
||||
|
||||
|
@ -29,13 +29,29 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí
|
||||
|
||||
RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation
|
||||
|
||||
8.11.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Modifikovaný frontend (Tailwind)
|
||||
- Vytvorený Docker Images, Elasticsearch databáza aj index.
|
||||
- Je aj skript na indexovanie.
|
||||
- Vyskúšaný Mistral Small a Mistral Large cez API-
|
||||
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pracujte na texte, pošlite mi draft.
|
||||
- Pripojte sa na server quadro.kemt.fei.tuke.sk (cez ssh z tuke siete). Použite prostredie Anaconda.
|
||||
- Na inferenciu (beh modelu) vyskúšajte vllm. Alebo ollama alebo localai. Dobrý model pre slovenčinu je Qwen2.5 alebo slovak-t5-base. Na vektorvé vyhľadávnaie je zatiaľ najlepší model multilingual E5. Možno aj BGE - nie je overený.
|
||||
|
||||
17.10.20204
|
||||
|
||||
Stav:
|
||||
|
||||
- Funguje web rozhranie aj vyhľadávanie.
|
||||
- Kódy sú na gite. Využíva sa Flask, Mistral API pre Mistral-Small (nebeží lokálne). Na vektory MiniLM2
|
||||
- Napísané poznámky o praktickej časti.
|
||||
- Napísané poznámky o praktickej časti.
|
||||
|
||||
|
||||
Úlohy
|
||||
|
@ -12,8 +12,6 @@ rok začiatku štúdia: 2022
|
||||
|
||||
# Bakalárska práca 2025
|
||||
|
||||
|
||||
|
||||
Cieľ:
|
||||
|
||||
- Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít.
|
||||
@ -23,6 +21,38 @@ Do budúcnosti:
|
||||
- Vypracovanie webového dema
|
||||
- Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).
|
||||
|
||||
Návrh na zadanie bakalárskej práce:
|
||||
|
||||
1. Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku.
|
||||
2. Napíšte prehľad existujúcich dátových množin, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít.
|
||||
3. Vyberte vhodný model a dátovú množinu a natrénujte a vyhodnotte model.
|
||||
4. Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
|
||||
5. Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomentovaných entít.
|
||||
|
||||
Stretnutie 20.12.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Splnené úlohy z posledného stetnutia
|
||||
- Text je v dobrom stave, treba ešte použiť šablónu.
|
||||
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pripravte si prezentáciu.
|
||||
- Textu dajte na moodle, skripty dajte na git.
|
||||
- Pokračujte v písaní. Doplnte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplnte časť o vyhodnotení - precision,recall, F1. Doplnte odkazy na dátové množiny. Používajte odkazy na vedecké články.
|
||||
- Zlepšite presnosť Vášho modelu. Do BP napíšte prioebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.
|
||||
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Zostavte webové demo
|
||||
- Pripravte experiment pre ukrajinský a ruský jazyk.
|
||||
- Priprave Dockerfile pre Vaše demo
|
||||
- Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty.
|
||||
|
||||
|
||||
Stretnutie 30.10.2024
|
||||
|
||||
Stav:
|
||||
@ -33,10 +63,10 @@ Stav:
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
|
||||
- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
|
||||
- Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
|
||||
- Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification
|
||||
- [x] Naštudujte korpusy s [NER pre slovenský jazyk](https://github.com/slovak-nlp/resources). Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
|
||||
- [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
|
||||
- [x] Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
|
||||
- [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
|
@ -27,6 +27,29 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.
|
||||
- Na adaptáciu použite "prompting" a "LORA".
|
||||
- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).
|
||||
|
||||
Stretnutie 12.11.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky.
|
||||
- Na vyhodnotenie použitý svoj skript a framework llm-eval-harness.
|
||||
- Pokračuje písanie.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pošlite mi draft BP na ďalšie stretnutie.
|
||||
- Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov.
|
||||
- Pokračujte v písaní.
|
||||
- Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT .
|
||||
- Napíšte ChatGPT prompt na detekciu nenávistnej reči.
|
||||
- Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab.
|
||||
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Zistite čo je to PEFT a kvantizácia a ako sa to používa.
|
||||
- Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT.
|
||||
|
||||
Stretnutie 18.10.2024
|
||||
|
||||
Stav:
|
||||
@ -46,9 +69,8 @@ Stav:
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
|
||||
- Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči.
|
||||
- Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.
|
||||
- [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
|
||||
- [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.
|
||||
|
||||
Stretnutie 3.10.2024
|
||||
|
||||
|
@ -14,7 +14,7 @@ rok začiatku štúdia: 2022
|
||||
Generovanie otázok zo zadaného textu.
|
||||
|
||||
|
||||
Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation
|
||||
Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation
|
||||
|
||||
Nové nápady:
|
||||
|
||||
@ -25,9 +25,34 @@ Nové nápady:
|
||||
Ako na to:
|
||||
|
||||
- Natrénujte generatívny model pre generovanie otázok. Použite existujúci skript a množinu SKQUAD.
|
||||
- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom.
|
||||
- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a odpovedí ku odsekom.
|
||||
- Výstupom by mala byť umelo generovaná databáza otázok a odpovedí.
|
||||
|
||||
Stretnutie 22.11.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Napísané o mt5 a umt5 v BP.
|
||||
- Urobené dotrénovanie na generovanie otázok.
|
||||
- Napísaná tabuľka s výsledkami experimentov. Metriky BLEU a ROGUE.
|
||||
- Napísaný skript, skript je na gite.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračujte v písaní práce. Napíšte aj o metrikách vyhodnotenia.
|
||||
- Vyhľadajte a stručne opíšte vedecké články o generovaní otázok. Na vyhľadanie použite Google scholar.
|
||||
- Pridajte slovak t5 base model do experimentov.
|
||||
- Dotrénujte Slovak Falcon. Tam bude treba iný skript.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Vymyslieť systém - natrénovať meurónku na návrh "odpovede".
|
||||
- Vyskúšať generovať otázky bez zadanej odpovede. Odpoveď generujte pomocou modelu. Model pre automatické odpovede už je na HF Hube: slovakbert-skquad.
|
||||
- Vyradiť také otázky, na ktoré systém nevie dopovedať.
|
||||
- Skúsiť generovať otázky z medicínskeho textu.
|
||||
|
||||
|
||||
|
||||
Stretnutie 18.10.2024
|
||||
|
||||
Stav:
|
||||
|
@ -12,24 +12,77 @@ rok začiatku štúdia: 2022
|
||||
|
||||
# Bakalárska práca 2025
|
||||
|
||||
Názov: Testovanie v klaudového riešenia na platforme Kuberntes
|
||||
Názov: Kontinuálne nasadenie a testovanie aplikácie v klaudovom prostredí.
|
||||
|
||||
Úlohy BP:
|
||||
|
||||
- Vypracujte písomný prehľad verejných klaudových služieb pre podporu procesu a nasadenia aplikácie.
|
||||
- Vypracujte písomný prehľad prostriedkov kontinuálneho nasadenie a integrácie.
|
||||
- Vytvorte webovú aplikáciu zloženú z viacerých komponentov a upravte ju do podoby vhodnej na nasadenie v klaude. K aplikácii vytvorte automatické testy.
|
||||
- Vyberte vhodné klaudové riešenia pre nasadenie Vašej aplikácie a vytvorte skripty pre nasadenie aplikácie. Opíšte architektúru Vašej aplikácie.
|
||||
- Vytvorte a opíšte proces kontinuálneho nasadenia a integrácie zmien do Vašej aplikácie pomocou vybraných klaudových služieb.
|
||||
|
||||
|
||||
Vedúci: doc. Matúš Pleva PhD.
|
||||
|
||||
Nápad:
|
||||
|
||||
- Vytvorič webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT
|
||||
- Vytvoriť webovú aplikáciu s použitím Spring Boot, využitie klaudovej databázy Azure a klaudového úložiska. realizovať JWT, využiť CI CD.
|
||||
|
||||
Stretnutie 13.12.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- CI-CD GIT HUB pipeline pre backend aj frontend.
|
||||
- Dockerfile je, zatiaľ to nefunguje s Azure Cloud, funguje lokalne. Registry zatiaľ nefunguje.
|
||||
- Auth cez JWT Token do LocalStorage.
|
||||
- Vyskúšaný Docker Compose, zatiaľ nefunguje na lokálny klaster.
|
||||
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Zistiť čo je Registry a ako to funguje.
|
||||
|
||||
|
||||
Stretnutie 8.11.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Backend SpringBoot, frontend React-Next.js.
|
||||
- Urobená základná autentifikácia pomocou HTTP Basic Auth.
|
||||
- Vyskúšaná kontajnerizácia.
|
||||
- Kódy sú na GitHUBe. https://github.com/MrSid333/bankapp.git
|
||||
- Aktivované Azure a Azure PostgreSQL aj úložisko. Zatiaľ nie je prepojené. úložisko.
|
||||
- Naštudované GITHUB CI-CD.
|
||||
- Nainštalované minikube.
|
||||
- Práca na textoch.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračujte v otvorených úlohách.
|
||||
- Vytvorte nasadenie aplikácie pomocou Kubernetes.
|
||||
- Napíšte automatické testy a zostavte Github CI-CD pipeline.
|
||||
- Zistite aké obmedzenia má GitHUB Pipeline.
|
||||
- Píšte BP pošlite mi draft.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Vytvorte nasadenie Vašej aplikácie do Azure a skritpy pre nasadenie dajte na GitHUB. Dávajte pozor aby ste nezverejnili Vaše prístupové údaje.
|
||||
- Napíšte článok do "online média" o CI CD v klaude vo forme tutoriálu pre študentov. Z tutoriálu sa študent dozvie, čo je to CI CD, ako to vytvoriť pre konkretny projekt na GITHUbe.
|
||||
- Zostavte pipeline pomocou iného nástroja (Azure, Jenkins) a porovnajte ich.
|
||||
|
||||
|
||||
|
||||
Stretnutie 3.10.2024
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Preštudujte si platformu Kuberntes. Napíšte čo je to. Napíšte čo je to kontajnerizácia.
|
||||
- Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať.
|
||||
- Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD násstorje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure.
|
||||
- Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikrosluťžieb a bude využívať klaudové úložisko
|
||||
- Ku aplikácii navrhnite niekoľko automatických testov.
|
||||
- Zostavte CI CD P(ipeline pre automatické zostavenie a testovanie aplikácie
|
||||
- [x] Preštudujte si platformu Kubernetes. Napíšte čo je to. Napíšte čo je to kontajnerizácia.
|
||||
- [x] Nainštalujte si microk8s. Aktivujte si MS Azure a naučte sa to používať.
|
||||
- [x] Vytvorte webovú aplikáciu, kotrá sa bude zkladať z viacerých mikroslužieb a bude využívať klaudové úložisko.
|
||||
- Napíšte čo je to CI CD a na čo sa využíva. Zistitie aké CI CD nástroje existujú. Vyberte si vhodný nástroj. Napr. GIT HUB, aleo GitLAB, alebo Jenkins. Alebo použite pipeline z Azure.
|
||||
- Ku aplikácii navrhnite niekoľko automatických testov.
|
||||
- Zostavte CI CD Pipeline pre automatické zostavenie a testovanie aplikácie
|
||||
|
||||
|
||||
|
||||
|
@ -30,7 +30,27 @@ Návrh na tému:
|
||||
|
||||
Spolupráca Oleh Poiasnik
|
||||
|
||||
Stretnutie:
|
||||
Stav:
|
||||
|
||||
- Práca na úlohách z minulého stretnutia, vyskúšaný RAGAS.
|
||||
- Nainštalovaný a vyskúšaný systém od p . Poiasnika.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pripravte "vzorovú" množinu na testovanie.
|
||||
- Pripravte testovaciu množinu. Množina by sa mala skladať z čo najväčšieho množstva príkladov.
|
||||
- Vyskúšajte testovaciu množinu pomocou RAGAS a modelov ktoré používa p. Poiasnik. Vyhodnotte modely pomocou množiny.
|
||||
- Kódy dávajte na GIT (napr. branch alebo adresár p Poiasnik GIT).
|
||||
- Pokračujte v písomných úlohách. Hľadajte články cez scholar a píšte si poznámky. Do BP.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Pripravte (nakódujte, odkopírovať) postup vyhľadávania podobný ako "reálny systém", ale využíval RAGAS.
|
||||
- Pripravte testovacie API pre RAG systém. Bude to funkcia alebo URL cez ktorú sa bude dať systém testovať.
|
||||
- Pomocou metriky a množiny vyhodnotte reálny systém.
|
||||
|
||||
|
||||
Stretnutie 11.1.:
|
||||
|
||||
Stav:
|
||||
|
||||
@ -39,17 +59,15 @@ Stav:
|
||||
|
||||
Úlohy:
|
||||
|
||||
|
||||
- Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
|
||||
- Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
|
||||
- Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky.
|
||||
- Zistite a opíšte aké metriky sa používajú.
|
||||
- [x] Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. Optimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
|
||||
- [x] Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
|
||||
- [ ] Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky.
|
||||
- [-] Zistite a opíšte aké metriky sa používajú. Ku každej metrike je potrebný odkaz na článok.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť.
|
||||
- Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede.
|
||||
- Napíšte príklady alebo použite generatívny model
|
||||
- [-] Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede.
|
||||
- [ ] Napíšte príklady alebo použite generatívny model
|
||||
|
||||
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user