Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki
This commit is contained in:
commit
13d98987c4
@ -28,6 +28,18 @@ Ciel:
|
||||
|
||||
Spolupráca Michal Stromko, Kristián Sopkovič.
|
||||
|
||||
Stretnutie 15.10.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Rozpísaná práca
|
||||
- Príprava na nasadenie Milvus DB na RPI klaster.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Píšte prácu: Definuje úlohu. Napíšte súčasný stav. Predstavte naše riešenie. Vyhodnotte naše riešenie. Postupujte od všeobnecného ku konkrétnemu.
|
||||
- Pokračujte v práci na HW a SW.
|
||||
|
||||
Stretnutie 27.9.2024
|
||||
|
||||
Stav:
|
||||
|
@ -34,17 +34,39 @@ Súvisiaca téma:
|
||||
- [Hate Speech](/topics/hatespeech)
|
||||
- [Tetiana Mahorian](/students/2022/tetiana_mohorian)
|
||||
|
||||
|
||||
Stretnutie 15.10.
|
||||
|
||||
Stav:
|
||||
|
||||
- Staré poznámky.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Navrhnite prompt na klasifikáciu nenávistnej reči a vyhodnotte, aký presný je model na množine https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak. Vyskúšajte viac modelov. Vyskúšajte aj https://huggingface.co/slovak-nlp/mistral-sk-7b
|
||||
- Pokračujte v písaní DP. Použite odkazy na odborné články,
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Dotrénujte model na klasifikáciu nenávistnej reči.
|
||||
- Dotrénujte model na generovanie nenávistnej reči.
|
||||
- Vyskúšajte SentenceTransformer (me5) na klasifikáciu.
|
||||
|
||||
|
||||
|
||||
## Diplomový projekt 2024
|
||||
|
||||
Stretnutie 10.5.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Poznámky o neurónových sieťach a rozbehané HF tarnsformers.
|
||||
- Poznámky o neurónových sieťach a rozbehané HF transformers.
|
||||
- Práca s Kaggle.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračovať v otvorených úlohách a štúdiu.
|
||||
- Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr.
|
||||
- [ ] Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr.
|
||||
- Prečítajte si niekoľko vedeckých článkov o klasifikácii HS, poznačte si ich informácie a urobte si poznámky. Na vyhľadanie článkov použite google scholar.
|
||||
|
||||
Zásobník úloh:
|
||||
@ -73,8 +95,8 @@ Stretnutie 15.2.
|
||||
Úlohy:
|
||||
|
||||
- [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python.
|
||||
- [-] Prečítajte si Dive into Python 3.
|
||||
- [ ] Priečítajte si Dive into Deep learning.
|
||||
- [x] Prečítajte si Dive into Python 3.
|
||||
- [x] Priečítajte si Dive into Deep learning.
|
||||
- [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany.
|
||||
- [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany.
|
||||
|
||||
|
@ -18,12 +18,35 @@ Téma:
|
||||
Sémantické vyhľadávanie pomocou veľkých modelov
|
||||
|
||||
- Tvorba datasetu prekladom, využitie existujúcich datasetov
|
||||
- Dotrénovanie existujúceho modelu
|
||||
- Dotrénovanie existujúceho modelu typu BERT pomocou preloženého MS MARCO.
|
||||
|
||||
Ciele:
|
||||
|
||||
- Zlepšiť RAG.
|
||||
|
||||
|
||||
Stretnutie 29.10.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Prečítané nejaké články. Inak nič.
|
||||
|
||||
Úlohy:
|
||||
|
||||
|
||||
- Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady.
|
||||
- Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco.
|
||||
- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké článkuý nájdete na Google Scholar.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- pracujte na servri quadro a prostredí Anaconda.
|
||||
- Natrénujte slovenský BERT model na preloženej databáze MS MARCO (WIP K. Sopkovič).
|
||||
|
||||
|
||||
|
||||
## Diplomový projekt 2024
|
||||
|
||||
Stretnutie 4.4. 2024
|
||||
|
||||
Úlohy:
|
||||
@ -45,5 +68,5 @@ Stretnutie 15.2.2024
|
||||
Úlohy:
|
||||
|
||||
- Oboznámte sa s prácou [K. Sopkovič](/students/2019/kristian_sopkovic) a [M. Stromko](/students/2019/michal_stromko).
|
||||
-
|
||||
|
||||
|
||||
|
@ -13,8 +13,30 @@ rok začiatku štúdia: 2020
|
||||
|
||||
Ciel:
|
||||
|
||||
- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu.
|
||||
- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
|
||||
- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
|
||||
- Strjový preklad vybranej množiny instruct.
|
||||
|
||||
|
||||
|
||||
|
||||
Stretnutie 15.10.
|
||||
|
||||
Stav:
|
||||
|
||||
- Napísané 4 strany poznámok o Transformers.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT.
|
||||
- Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA.
|
||||
Použite server quadro alebo Kaggle.
|
||||
- Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články.
|
||||
|
||||
|
||||
|
||||
|
||||
# Diplomový projekt 2024
|
||||
|
||||
Ciele na semester:
|
||||
|
||||
@ -32,6 +54,7 @@ Vybrať jednu z úloh:
|
||||
- Tvorba instruct datasetu - Anotácia alebo preklad množín
|
||||
- Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
|
||||
|
||||
|
||||
Stretnutie 7.6.2024
|
||||
|
||||
Stav:
|
||||
|
@ -29,6 +29,31 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí
|
||||
|
||||
RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation
|
||||
|
||||
17.10.20204
|
||||
|
||||
Stav:
|
||||
|
||||
- Funguje web rozhranie aj vyhľadávanie.
|
||||
- Kódy sú na gite. Využíva sa Flask, Mistral API pre Mistral-Small (nebeží lokálne). Na vektory MiniLM2
|
||||
- Napísané poznámky o praktickej časti.
|
||||
|
||||
|
||||
Úlohy
|
||||
|
||||
- Otázka: Je to hybridné vyhľadávanie?
|
||||
- Začnite písať teoretickú časť práce.
|
||||
- Pokračujte v práci na frontende aj backende, tak aby to dobre vyzeralo aj dobre fungovalo - aby sa to dalo použiť ako demo. Treba dávať pozor na právnu zodpovednosť.
|
||||
- Vyskúšajte rôzne spôsoby vyhľadávania - aj sparse (riedke vyhľadávanie).
|
||||
- Kódy dávajte na git.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Pripravte modely na lokálne nasadenie pomocou inferenčného servra (vllm, ctranslate2). Chceme aby modely bežali cez (OpenAI) API na našej infraštruktúre.
|
||||
- Vyskúšajte Váš systém s lepšími modelmi (Slovak Mistral, iný väčší model, na vektory me5 alebo slovakbert-mnlr).
|
||||
- pripravte nasadenie aplikácie pomocou systému Docker Compose.
|
||||
- Urobte číslelné vyhodnotenie vyhľadávania. Toto má na starosti Yevhenii Leonov.
|
||||
|
||||
|
||||
27.9.2024
|
||||
|
||||
Stav:
|
||||
|
@ -10,7 +10,8 @@ taxonomy:
|
||||
|
||||
rok začiatku štúdia: 2022
|
||||
|
||||
# Bakalárksa práca 2025
|
||||
# Bakalárska práca 2025
|
||||
|
||||
|
||||
|
||||
Cieľ:
|
||||
@ -22,14 +23,38 @@ Do budúcnosti:
|
||||
- Vypracovanie webového dema
|
||||
- Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).
|
||||
|
||||
Stretnutie 30.10.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Napísané texty o NE.
|
||||
- Vyskúšané a naštudované veci podľa pokynov,
|
||||
- Začiatok práce na webovom deme.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
|
||||
- Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
|
||||
- Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
|
||||
- Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
|
||||
- Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slvenský jazyk https://github.com/slovak-nlp/resources
|
||||
- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
|
||||
- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
|
||||
- Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
|
||||
- Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
|
||||
- Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.
|
||||
- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
|
||||
- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte.
|
||||
|
||||
|
||||
Stretnutie 20.5.20204
|
||||
|
||||
Úlohy:
|
||||
|
||||
- [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
|
||||
- [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
|
||||
- [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
|
||||
- [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
|
||||
- [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
|
@ -26,25 +26,45 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.
|
||||
- Aplikujte existujúci model na úlohu detekcie nenávistnej reči.
|
||||
- Na adaptáciu použite "prompting" a "LORA".
|
||||
- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).
|
||||
c
|
||||
|
||||
Stretnutie 18.10.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.
|
||||
- Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.
|
||||
- Nainštalovaná OLLama, Transformers, vyskúšaný Mistral.
|
||||
- Urobené všetko.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar).
|
||||
- Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči.
|
||||
- Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1.
|
||||
- Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.
|
||||
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
|
||||
- Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči.
|
||||
- Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.
|
||||
|
||||
Stretnutie 3.10.2024
|
||||
|
||||
|
||||
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
|
||||
- Prejdite si knihu Dive Deep into Python 3.
|
||||
- Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
|
||||
- Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
|
||||
- Oboznámte sa s OPEN AI Python API.
|
||||
- Nainštalujte si prostredie Anaconda.
|
||||
- Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
|
||||
- Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely
|
||||
- [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
|
||||
- [x] Prejdite si knihu Dive Deep into Python 3.
|
||||
- [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
|
||||
- [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
|
||||
- [x] Oboznámte sa s OPEN AI Python API.
|
||||
- [x] Nainštalujte si prostredie Anaconda.
|
||||
- [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
|
||||
- [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)
|
||||
- [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)
|
||||
|
||||
|
@ -7,7 +7,6 @@ taxonomy:
|
||||
author: Daniel Hladek
|
||||
---
|
||||
|
||||
|
||||
rok začiatku štúdia: 2022
|
||||
|
||||
# Bakalárska práca 2025
|
||||
@ -29,6 +28,27 @@ Ako na to:
|
||||
- Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom.
|
||||
- Výstupom by mala byť umelo generovaná databáza otázok a odpovedí.
|
||||
|
||||
Stretnutie 18.10.2024
|
||||
|
||||
Stav:
|
||||
|
||||
- Natrénovaný model SlovakT5 Base. Skripty sú na [GITe](https://git.kemt.fei.tuke.sk/vk202uf/bp2024). Trénovanie funguje.
|
||||
- Naštudované články o T5 a Falcon, napísané poznámky.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Doplnte vyhodnotenie modelu pomocu BLEU Skore. Ako testovaciu množinu použite testovaciu časť SkQUAD.
|
||||
- Natrénujte aj iné modely: mt5-base, SlavicT5-base, umt5-base. Opíšte testovací scenár - ako ste dotrénovali model . Vyhodnotte ich v tabuľke. Do práce napíšte o týchto modeloch.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- SKúste natrénovať aj modely typu GPT. Tam bude treba upraviť skript na model typu GPT - SlovakMistral 7B. Titeo modely sú veľké. Budete potrebovať prístup na školský server. Budete potrebovať použiť mnetódu: quantization (bitsandbytes) a peft (parameter efficient fine tuning).
|
||||
- Ako bude model dobrý, tak ho uverejníme na repoztári Huggingface Hub.
|
||||
- Ak bude práca dobrá, skúsime prepracovať a urobiť článok na konferencii.
|
||||
- V spolupráci Y. Leonov urobiť vyhodnotenie aj v medicínskej doméne.
|
||||
- Skúsíme poprosiť doktorov o názor.
|
||||
|
||||
|
||||
Stretnutie 27.9.2024
|
||||
|
||||
Stav:
|
||||
@ -40,7 +60,7 @@ Stav:
|
||||
|
||||
- Zistite ako sa dotrénujú generatívne modely HuggingFace. Zistite čo je to Few Shot learning a *urobte si poznámky*.
|
||||
- Prečítajte si článok o modele Falcon a napíšte ako funguje. Prečítajte si článok o modele T5 a napíšte ako funguje.
|
||||
- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Falcon 7 B.
|
||||
- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Mistral 7 B.
|
||||
- Oboznámte sa s Hugggingface API a OpenAI API. Na generovanie môžete použiť aj toto api.
|
||||
- Skripty na dotrénovanie dávajte do GIT repozitára.
|
||||
|
||||
@ -48,7 +68,7 @@ Zásobník úloh:
|
||||
|
||||
- Zoberte databázu liekov a generujte otázky o liekoch - od Ing. K. Sopkovič, alebo O. Poiasnik.
|
||||
- Možno bude treba použiť ChatGPT API a príklady z databázy SK QUAD.
|
||||
- Možno bude treba dotrénovať Slovak Falcon 7B na inštrukcie.
|
||||
- Možno bude treba dotrénovať Slovak Mistral 7B na inštrukcie.
|
||||
|
||||
Staré Úlohy:
|
||||
|
||||
|
@ -26,10 +26,30 @@ Predbežné zadanie:
|
||||
|
||||
Návrh na tému:
|
||||
|
||||
- Vyhodnotenie systémov RAGi
|
||||
- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť.
|
||||
- Napíšte príklady alebo použite generatívny modell
|
||||
- Vyhodnotenie systémov RAG
|
||||
|
||||
Spolupráca Oleh Poiasnik
|
||||
|
||||
Stretnutie:
|
||||
|
||||
Stav:
|
||||
|
||||
- Urobené poznámky na tému RAG
|
||||
- Nainštalované PrivateGPT, Ollama na Windowse
|
||||
|
||||
Úlohy:
|
||||
|
||||
|
||||
- Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
|
||||
- Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
|
||||
- Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky.
|
||||
- Zistite a opíšte aké metriky sa používajú.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť.
|
||||
- Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede.
|
||||
- Napíšte príklady alebo použite generatívny model
|
||||
|
||||
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user