Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki

2024-11-06 14:00:15 +01:00 · 2024-11-06 14:00:15 +01:00 · 13d98987c4
commit 13d98987c4
parent c47eaec6ac 4936ab1e93
9 changed files with 221 additions and 31 deletions
--- a/pages/students/2019/filip_tomas/README.md
+++ b/pages/students/2019/filip_tomas/README.md
@ -28,6 +28,18 @@ Ciel:

 Spolupráca Michal Stromko, Kristián Sopkovič.

+Stretnutie 15.10.2024
+
+Stav:
+
+- Rozpísaná práca
+- Príprava na nasadenie Milvus DB na RPI klaster.
+
+Úlohy:
+
+- Píšte prácu: Definuje úlohu. Napíšte súčasný stav. Predstavte naše riešenie. Vyhodnotte naše riešenie. Postupujte od všeobnecného ku konkrétnemu.
+- Pokračujte v práci na HW a SW.
+
 Stretnutie 27.9.2024

 Stav:
--- a/pages/students/2019/patrik_pokrivcak/README.md
+++ b/pages/students/2019/patrik_pokrivcak/README.md
@ -34,17 +34,39 @@ Súvisiaca téma:
 - [Hate Speech](/topics/hatespeech)
 - [Tetiana Mahorian](/students/2022/tetiana_mohorian)

+
+Stretnutie 15.10.
+
+Stav:
+
+- Staré poznámky.
+
+Úlohy:
+
+- Navrhnite prompt na klasifikáciu nenávistnej reči a vyhodnotte, aký presný je model na množine https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak. Vyskúšajte viac modelov. Vyskúšajte aj https://huggingface.co/slovak-nlp/mistral-sk-7b
+- Pokračujte v písaní DP. Použite odkazy na odborné články,
+
+Zásobník úloh:
+
+- Dotrénujte model na klasifikáciu nenávistnej reči.
+- Dotrénujte model na generovanie  nenávistnej reči.
+- Vyskúšajte SentenceTransformer (me5) na klasifikáciu.
+
+
+
+## Diplomový projekt 2024
+
 Stretnutie 10.5.2024

 Stav:

- Poznámky o neurónových sieťach a rozbehané HF tarnsformers.
+- Poznámky o neurónových sieťach a rozbehané HF transformers.
 - Práca s Kaggle.

 Úlohy:

 - Pokračovať v otvorených úlohách a štúdiu.
- Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr.
+- [ ] Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr.
 - Prečítajte si niekoľko vedeckých článkov o klasifikácii HS, poznačte si ich informácie a urobte si poznámky. Na vyhľadanie článkov použite google scholar.

 Zásobník úloh:
@ -73,8 +95,8 @@ Stretnutie 15.2.
 Úlohy:

 - [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python.
- [-] Prečítajte si Dive into Python 3.
- [ ] Priečítajte si Dive into Deep learning.
+- [x] Prečítajte si Dive into Python 3.
+- [x] Priečítajte si Dive into Deep learning.
 - [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany.
 - [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany.

--- a/pages/students/2020/david_kostilnik/README.md
+++ b/pages/students/2020/david_kostilnik/README.md
@ -18,12 +18,35 @@ Téma:
 Sémantické vyhľadávanie pomocou veľkých modelov

 - Tvorba datasetu prekladom, využitie existujúcich datasetov
- Dotrénovanie existujúceho modelu
+- Dotrénovanie existujúceho modelu typu BERT pomocou preloženého MS MARCO.

 Ciele: 

 - Zlepšiť RAG.

+
+Stretnutie 29.10.2024
+
+Stav:
+
+- Prečítané nejaké články. Inak nič.
+
+Úlohy:
+
+
+- Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady.
+- Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco.
+- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké článkuý nájdete na Google Scholar.
+
+Zásobník úloh:
+
+- pracujte na servri quadro a prostredí Anaconda.
+- Natrénujte slovenský BERT model na preloženej databáze MS MARCO (WIP K. Sopkovič).
+
+
+
+## Diplomový projekt 2024
+
 Stretnutie 4.4. 2024

 Úlohy:
@ -45,5 +68,5 @@ Stretnutie 15.2.2024
 Úlohy:

 - Oboznámte sa s prácou [K. Sopkovič](/students/2019/kristian_sopkovic) a [M. Stromko](/students/2019/michal_stromko).
- 
+

--- a/pages/students/2020/pavol_hudak/README.md
+++ b/pages/students/2020/pavol_hudak/README.md
@ -13,8 +13,30 @@ rok začiatku štúdia: 2020

 Ciel:

- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu.
 - Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
+- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
+- Strjový preklad vybranej množiny instruct.
+
+
+
+
+Stretnutie 15.10.
+
+Stav:
+
+- Napísané 4 strany poznámok o Transformers.
+
+Úlohy:
+
+- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT. 
+- Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA.
+Použite server quadro alebo Kaggle. 
+- Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články. 
+
+
+
+
+# Diplomový projekt 2024

 Ciele na semester:

@ -32,6 +54,7 @@ Vybrať jednu z úloh:
 - Tvorba instruct datasetu - Anotácia alebo preklad množín
 - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT

+
 Stretnutie 7.6.2024

 Stav:
--- a/pages/students/2022/oleh_poiasnik/README.md
+++ b/pages/students/2022/oleh_poiasnik/README.md
@ -29,6 +29,31 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí

 RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation

+17.10.20204
+
+Stav:
+
+- Funguje web rozhranie aj vyhľadávanie.
+- Kódy sú na gite. Využíva sa Flask, Mistral API pre Mistral-Small (nebeží lokálne). Na vektory MiniLM2
+- Napísané poznámky o praktickej časti.
+
+
+Úlohy
+
+- Otázka: Je to hybridné vyhľadávanie?
+- Začnite písať teoretickú časť práce. 
+- Pokračujte v práci na frontende aj backende, tak aby to dobre vyzeralo aj dobre fungovalo - aby sa to dalo použiť  ako demo. Treba dávať pozor na právnu zodpovednosť.
+- Vyskúšajte rôzne spôsoby vyhľadávania - aj sparse (riedke vyhľadávanie).
+- Kódy dávajte na git.
+
+Zásobník úloh:
+
+- Pripravte modely na lokálne nasadenie pomocou inferenčného servra (vllm, ctranslate2). Chceme aby modely bežali cez (OpenAI) API na našej infraštruktúre. 
+- Vyskúšajte Váš systém s lepšími modelmi (Slovak Mistral, iný väčší model, na vektory me5 alebo slovakbert-mnlr).
+- pripravte nasadenie aplikácie pomocou systému Docker Compose.
+- Urobte číslelné vyhodnotenie vyhľadávania. Toto má na starosti Yevhenii Leonov. 
+
+
 27.9.2024

 Stav:
--- a/pages/students/2022/serhii_yemets/README.md
+++ b/pages/students/2022/serhii_yemets/README.md
@ -10,7 +10,8 @@ taxonomy:

 rok začiatku štúdia: 2022

-# Bakalárksa práca 2025
+# Bakalárska práca 2025
+


 Cieľ:
@ -22,14 +23,38 @@ Do budúcnosti:
 - Vypracovanie webového dema
 - Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).

+Stretnutie 30.10.2024
+
+Stav:
+
+- Napísané texty o NE. 
+- Vyskúšané a naštudované veci podľa pokynov,
+- Začiatok práce na webovom deme.

 Úlohy:

- Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
- Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
- Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
- Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice. 
- Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slvenský jazyk https://github.com/slovak-nlp/resources
+- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
+- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
+- Pokračujte v písaní BP.  Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
+- Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification
+
+Zásobník úloh:
+
+- Natrénujte nový Spacy  NER model ktorý by bol lepší ako pôvodný.
+- Spojte viacero dátových množin  (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. 
+- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
+- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte. 
+
+
+Stretnutie 20.5.20204
+
+Úlohy:
+
+- [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
+- [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
+- [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
+- [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice. 
+- [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources

 Zásobník úloh:

--- a/pages/students/2022/tetiana_mohorian/README.md
+++ b/pages/students/2022/tetiana_mohorian/README.md
@ -26,25 +26,45 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.
 - Aplikujte existujúci model na úlohu detekcie nenávistnej reči. 
 - Na adaptáciu použite "prompting" a "LORA".
 - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).
-c
+
+Stretnutie 18.10.2024
+
+Stav:
+
+- Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.  
+- Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.
+- Nainštalovaná OLLama, Transformers, vyskúšaný Mistral. 
+- Urobené všetko.
+
+Úlohy:
+
+- Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar). 
+- Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči. 
+- Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári.  Na vyhodnotenie použite metriku Precision-Recall-F1.
+- Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.
+
+
+Zásobník úloh:
+
+- Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. 
+- Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči.
+- Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. 

 Stretnutie 3.10.2024


-
-
 Úlohy:

- Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
- Prejdite si knihu Dive Deep into Python 3.
- Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.	
- Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
- Oboznámte sa s OPEN AI Python API.
- Nainštalujte si prostredie Anaconda. 
- Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
- Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely
+- [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
+- [x] Prejdite si knihu Dive Deep into Python 3.
+- [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.	
+- [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
+- [x] Oboznámte sa s OPEN AI Python API.
+- [x] Nainštalujte si prostredie Anaconda. 
+- [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
+- [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely

 Zásobník úloh:

- Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)
+- [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)

--- a/pages/students/2022/valerii_kutsenko/README.md
+++ b/pages/students/2022/valerii_kutsenko/README.md
@ -7,7 +7,6 @@ taxonomy:
    author: Daniel Hladek
 ---

-
 rok začiatku štúdia: 2022

 # Bakalárska práca 2025
@ -29,6 +28,27 @@ Ako na to:
 - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom. 
 - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí.

+Stretnutie 18.10.2024
+
+Stav:
+
+- Natrénovaný model SlovakT5 Base. Skripty sú na [GITe](https://git.kemt.fei.tuke.sk/vk202uf/bp2024). Trénovanie funguje.
+- Naštudované články o T5 a Falcon, napísané poznámky.
+
+Úlohy:
+
+- Doplnte vyhodnotenie modelu pomocu BLEU Skore. Ako testovaciu množinu použite testovaciu časť SkQUAD.
+- Natrénujte aj iné modely: mt5-base, SlavicT5-base, umt5-base. Opíšte testovací scenár - ako ste dotrénovali model . Vyhodnotte ich v tabuľke. Do práce napíšte o týchto modeloch.
+
+Zásobník úloh:
+
+- SKúste natrénovať aj modely typu GPT. Tam bude treba upraviť skript na model typu GPT - SlovakMistral 7B. Titeo modely sú veľké. Budete potrebovať prístup na školský server. Budete potrebovať použiť mnetódu: quantization (bitsandbytes) a peft (parameter efficient fine tuning).
+- Ako bude model dobrý, tak ho uverejníme na repoztári Huggingface Hub.
+- Ak bude práca dobrá, skúsime prepracovať a urobiť článok na konferencii. 
+- V spolupráci Y. Leonov urobiť vyhodnotenie aj v medicínskej doméne.
+- Skúsíme poprosiť doktorov o názor. 
+
+
 Stretnutie 27.9.2024

 Stav:
@ -40,7 +60,7 @@ Stav:

 - Zistite ako sa dotrénujú generatívne modely HuggingFace. Zistite čo je to Few Shot learning a *urobte si poznámky*.
 - Prečítajte si článok o modele Falcon a napíšte ako funguje. Prečítajte si článok o modele T5 a napíšte ako funguje.
- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Falcon 7 B.
+- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Mistral 7 B.
 - Oboznámte sa s Hugggingface API a OpenAI API. Na generovanie môžete použiť aj toto api.
 - Skripty na dotrénovanie dávajte do GIT repozitára.

@ -48,7 +68,7 @@ Zásobník úloh:

 - Zoberte databázu liekov a generujte otázky o liekoch - od Ing. K. Sopkovič, alebo O. Poiasnik. 
 - Možno bude treba použiť ChatGPT API a príklady z databázy SK QUAD.
- Možno bude treba dotrénovať Slovak Falcon 7B na inštrukcie.
+- Možno bude treba dotrénovať Slovak Mistral 7B na inštrukcie.

 Staré Úlohy:

--- a/pages/students/2022/yevhenii_leonov/README.md
+++ b/pages/students/2022/yevhenii_leonov/README.md
@ -26,10 +26,30 @@ Predbežné zadanie:

 Návrh na tému:

- Vyhodnotenie systémov RAGi
- Zostavte množinu na vyhodnotenie  RAG systému pre medicínsku oblasť.
- Napíšte príklady alebo použite generatívny modell
+- Vyhodnotenie systémov RAG
+
+Spolupráca Oleh Poiasnik
+
+Stretnutie:
+
+Stav:
+
+- Urobené poznámky na tému RAG
+- Nainštalované PrivateGPT, Ollama na Windowse
+
+Úlohy:
+
+
+- Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
 - Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
+- Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky. 
+- Zistite a opíšte aké metriky sa používajú.
+
+Zásobník úloh:
+
+- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť.
+- Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede. 
+- Napíšte príklady alebo použite generatívny model