Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki

This commit is contained in:
Daniel Hládek 2024-11-06 14:00:15 +01:00
commit 13d98987c4
9 changed files with 221 additions and 31 deletions

View File

@ -28,6 +28,18 @@ Ciel:
Spolupráca Michal Stromko, Kristián Sopkovič.
Stretnutie 15.10.2024
Stav:
- Rozpísaná práca
- Príprava na nasadenie Milvus DB na RPI klaster.
Úlohy:
- Píšte prácu: Definuje úlohu. Napíšte súčasný stav. Predstavte naše riešenie. Vyhodnotte naše riešenie. Postupujte od všeobnecného ku konkrétnemu.
- Pokračujte v práci na HW a SW.
Stretnutie 27.9.2024
Stav:

View File

@ -34,17 +34,39 @@ Súvisiaca téma:
- [Hate Speech](/topics/hatespeech)
- [Tetiana Mahorian](/students/2022/tetiana_mohorian)
Stretnutie 15.10.
Stav:
- Staré poznámky.
Úlohy:
- Navrhnite prompt na klasifikáciu nenávistnej reči a vyhodnotte, aký presný je model na množine https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak. Vyskúšajte viac modelov. Vyskúšajte aj https://huggingface.co/slovak-nlp/mistral-sk-7b
- Pokračujte v písaní DP. Použite odkazy na odborné články,
Zásobník úloh:
- Dotrénujte model na klasifikáciu nenávistnej reči.
- Dotrénujte model na generovanie nenávistnej reči.
- Vyskúšajte SentenceTransformer (me5) na klasifikáciu.
## Diplomový projekt 2024
Stretnutie 10.5.2024
Stav:
- Poznámky o neurónových sieťach a rozbehané HF tarnsformers.
- Poznámky o neurónových sieťach a rozbehané HF transformers.
- Práca s Kaggle.
Úlohy:
- Pokračovať v otvorených úlohách a štúdiu.
- Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr.
- [ ] Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr.
- Prečítajte si niekoľko vedeckých článkov o klasifikácii HS, poznačte si ich informácie a urobte si poznámky. Na vyhľadanie článkov použite google scholar.
Zásobník úloh:
@ -73,8 +95,8 @@ Stretnutie 15.2.
Úlohy:
- [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python.
- [-] Prečítajte si Dive into Python 3.
- [ ] Priečítajte si Dive into Deep learning.
- [x] Prečítajte si Dive into Python 3.
- [x] Priečítajte si Dive into Deep learning.
- [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany.
- [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany.

View File

@ -18,12 +18,35 @@ Téma:
Sémantické vyhľadávanie pomocou veľkých modelov
- Tvorba datasetu prekladom, využitie existujúcich datasetov
- Dotrénovanie existujúceho modelu
- Dotrénovanie existujúceho modelu typu BERT pomocou preloženého MS MARCO.
Ciele:
- Zlepšiť RAG.
Stretnutie 29.10.2024
Stav:
- Prečítané nejaké články. Inak nič.
Úlohy:
- Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady.
- Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco.
- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké článkuý nájdete na Google Scholar.
Zásobník úloh:
- pracujte na servri quadro a prostredí Anaconda.
- Natrénujte slovenský BERT model na preloženej databáze MS MARCO (WIP K. Sopkovič).
## Diplomový projekt 2024
Stretnutie 4.4. 2024
Úlohy:
@ -45,5 +68,5 @@ Stretnutie 15.2.2024
Úlohy:
- Oboznámte sa s prácou [K. Sopkovič](/students/2019/kristian_sopkovic) a [M. Stromko](/students/2019/michal_stromko).
-

View File

@ -13,8 +13,30 @@ rok začiatku štúdia: 2020
Ciel:
- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu.
- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
- Strjový preklad vybranej množiny instruct.
Stretnutie 15.10.
Stav:
- Napísané 4 strany poznámok o Transformers.
Úlohy:
- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT.
- Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA.
Použite server quadro alebo Kaggle.
- Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články.
# Diplomový projekt 2024
Ciele na semester:
@ -32,6 +54,7 @@ Vybrať jednu z úloh:
- Tvorba instruct datasetu - Anotácia alebo preklad množín
- Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
Stretnutie 7.6.2024
Stav:

View File

@ -29,6 +29,31 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí
RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation
17.10.20204
Stav:
- Funguje web rozhranie aj vyhľadávanie.
- Kódy sú na gite. Využíva sa Flask, Mistral API pre Mistral-Small (nebeží lokálne). Na vektory MiniLM2
- Napísané poznámky o praktickej časti.
Úlohy
- Otázka: Je to hybridné vyhľadávanie?
- Začnite písať teoretickú časť práce.
- Pokračujte v práci na frontende aj backende, tak aby to dobre vyzeralo aj dobre fungovalo - aby sa to dalo použiť ako demo. Treba dávať pozor na právnu zodpovednosť.
- Vyskúšajte rôzne spôsoby vyhľadávania - aj sparse (riedke vyhľadávanie).
- Kódy dávajte na git.
Zásobník úloh:
- Pripravte modely na lokálne nasadenie pomocou inferenčného servra (vllm, ctranslate2). Chceme aby modely bežali cez (OpenAI) API na našej infraštruktúre.
- Vyskúšajte Váš systém s lepšími modelmi (Slovak Mistral, iný väčší model, na vektory me5 alebo slovakbert-mnlr).
- pripravte nasadenie aplikácie pomocou systému Docker Compose.
- Urobte číslelné vyhodnotenie vyhľadávania. Toto má na starosti Yevhenii Leonov.
27.9.2024
Stav:

View File

@ -10,7 +10,8 @@ taxonomy:
rok začiatku štúdia: 2022
# Bakalárksa práca 2025
# Bakalárska práca 2025
Cieľ:
@ -22,14 +23,38 @@ Do budúcnosti:
- Vypracovanie webového dema
- Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).
Stretnutie 30.10.2024
Stav:
- Napísané texty o NE.
- Vyskúšané a naštudované veci podľa pokynov,
- Začiatok práce na webovom deme.
Úlohy:
- Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
- Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
- Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
- Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
- Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slvenský jazyk https://github.com/slovak-nlp/resources
- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
- Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
- Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification
Zásobník úloh:
- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
- Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.
- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte.
Stretnutie 20.5.20204
Úlohy:
- [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
- [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
- [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
- [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
- [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources
Zásobník úloh:

View File

@ -26,25 +26,45 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.
- Aplikujte existujúci model na úlohu detekcie nenávistnej reči.
- Na adaptáciu použite "prompting" a "LORA".
- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).
c
Stretnutie 18.10.2024
Stav:
- Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.
- Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.
- Nainštalovaná OLLama, Transformers, vyskúšaný Mistral.
- Urobené všetko.
Úlohy:
- Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar).
- Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči.
- Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1.
- Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.
Zásobník úloh:
- Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
- Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči.
- Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.
Stretnutie 3.10.2024
Úlohy:
- Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
- Prejdite si knihu Dive Deep into Python 3.
- Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
- Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
- Oboznámte sa s OPEN AI Python API.
- Nainštalujte si prostredie Anaconda.
- Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
- Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely
- [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
- [x] Prejdite si knihu Dive Deep into Python 3.
- [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
- [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
- [x] Oboznámte sa s OPEN AI Python API.
- [x] Nainštalujte si prostredie Anaconda.
- [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
- [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely
Zásobník úloh:
- Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)
- [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)

View File

@ -7,7 +7,6 @@ taxonomy:
author: Daniel Hladek
---
rok začiatku štúdia: 2022
# Bakalárska práca 2025
@ -29,6 +28,27 @@ Ako na to:
- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom.
- Výstupom by mala byť umelo generovaná databáza otázok a odpovedí.
Stretnutie 18.10.2024
Stav:
- Natrénovaný model SlovakT5 Base. Skripty sú na [GITe](https://git.kemt.fei.tuke.sk/vk202uf/bp2024). Trénovanie funguje.
- Naštudované články o T5 a Falcon, napísané poznámky.
Úlohy:
- Doplnte vyhodnotenie modelu pomocu BLEU Skore. Ako testovaciu množinu použite testovaciu časť SkQUAD.
- Natrénujte aj iné modely: mt5-base, SlavicT5-base, umt5-base. Opíšte testovací scenár - ako ste dotrénovali model . Vyhodnotte ich v tabuľke. Do práce napíšte o týchto modeloch.
Zásobník úloh:
- SKúste natrénovať aj modely typu GPT. Tam bude treba upraviť skript na model typu GPT - SlovakMistral 7B. Titeo modely sú veľké. Budete potrebovať prístup na školský server. Budete potrebovať použiť mnetódu: quantization (bitsandbytes) a peft (parameter efficient fine tuning).
- Ako bude model dobrý, tak ho uverejníme na repoztári Huggingface Hub.
- Ak bude práca dobrá, skúsime prepracovať a urobiť článok na konferencii.
- V spolupráci Y. Leonov urobiť vyhodnotenie aj v medicínskej doméne.
- Skúsíme poprosiť doktorov o názor.
Stretnutie 27.9.2024
Stav:
@ -40,7 +60,7 @@ Stav:
- Zistite ako sa dotrénujú generatívne modely HuggingFace. Zistite čo je to Few Shot learning a *urobte si poznámky*.
- Prečítajte si článok o modele Falcon a napíšte ako funguje. Prečítajte si článok o modele T5 a napíšte ako funguje.
- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Falcon 7 B.
- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Mistral 7 B.
- Oboznámte sa s Hugggingface API a OpenAI API. Na generovanie môžete použiť aj toto api.
- Skripty na dotrénovanie dávajte do GIT repozitára.
@ -48,7 +68,7 @@ Zásobník úloh:
- Zoberte databázu liekov a generujte otázky o liekoch - od Ing. K. Sopkovič, alebo O. Poiasnik.
- Možno bude treba použiť ChatGPT API a príklady z databázy SK QUAD.
- Možno bude treba dotrénovať Slovak Falcon 7B na inštrukcie.
- Možno bude treba dotrénovať Slovak Mistral 7B na inštrukcie.
Staré Úlohy:

View File

@ -26,10 +26,30 @@ Predbežné zadanie:
Návrh na tému:
- Vyhodnotenie systémov RAGi
- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť.
- Napíšte príklady alebo použite generatívny modell
- Vyhodnotenie systémov RAG
Spolupráca Oleh Poiasnik
Stretnutie:
Stav:
- Urobené poznámky na tému RAG
- Nainštalované PrivateGPT, Ollama na Windowse
Úlohy:
- Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
- Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
- Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky.
- Zistite a opíšte aké metriky sa používajú.
Zásobník úloh:
- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť.
- Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede.
- Napíšte príklady alebo použite generatívny model