From 0c5094133fefb6e026c8ddcc8f341779036989e6 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 11 Oct 2024 08:20:11 +0000 Subject: [PATCH 01/22] Update pages/students/2022/yevhenii_leonov/README.md --- pages/students/2022/yevhenii_leonov/README.md | 19 +++++++++++++++++-- 1 file changed, 17 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/yevhenii_leonov/README.md b/pages/students/2022/yevhenii_leonov/README.md index 063e2f47..b4cb04d5 100644 --- a/pages/students/2022/yevhenii_leonov/README.md +++ b/pages/students/2022/yevhenii_leonov/README.md @@ -26,13 +26,28 @@ Predbežné zadanie: Návrh na tému: -- Vyhodnotenie systémov RAGi +- Vyhodnotenie systémov RAG - Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. -- Napíšte príklady alebo použite generatívny modell +- Napíšte príklady alebo použite generatívny model + +Spolupráca Oleh Poiasnik + +Stretnutie: + +Stav: + +- Urobené poznámky na tému RAG +- Nainštalované PrivateGPT, Ollama na Windowse + +Úlohy: + + +- Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia. - Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html + # Vedecký projekt 2024 From 22eec496fdd5249975ab6d5d1d72c38af3ab3fe8 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 11 Oct 2024 08:24:34 +0000 Subject: [PATCH 02/22] Update pages/students/2022/yevhenii_leonov/README.md --- pages/students/2022/yevhenii_leonov/README.md | 9 +++++++-- 1 file changed, 7 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/yevhenii_leonov/README.md b/pages/students/2022/yevhenii_leonov/README.md index b4cb04d5..d215252b 100644 --- a/pages/students/2022/yevhenii_leonov/README.md +++ b/pages/students/2022/yevhenii_leonov/README.md @@ -27,8 +27,6 @@ Predbežné zadanie: Návrh na tému: - Vyhodnotenie systémov RAG -- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. -- Napíšte príklady alebo použite generatívny model Spolupráca Oleh Poiasnik @@ -44,7 +42,14 @@ Stav: - Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia. - Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html +- Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky. +- Zistite a opíšte aké metriky sa používajú. +Zásobník úloh: + +- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. +- Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede. +- Napíšte príklady alebo použite generatívny model From 1229f4bda7eca90ed7c84d5f838958da511957eb Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 15 Oct 2024 08:49:06 +0000 Subject: [PATCH 03/22] Update pages/students/2020/pavol_hudak/README.md --- pages/students/2020/pavol_hudak/README.md | 25 ++++++++++++++++++++++- 1 file changed, 24 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/pavol_hudak/README.md b/pages/students/2020/pavol_hudak/README.md index 580cb9fd..e78cd86c 100644 --- a/pages/students/2020/pavol_hudak/README.md +++ b/pages/students/2020/pavol_hudak/README.md @@ -13,8 +13,30 @@ rok začiatku štúdia: 2020 Ciel: -- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu. - Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku. +- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset. +- Strjový preklad vybranej množiny instruct. + + + + +Stretnutie 15.10. + +Stav: + +- Napísané 4 strany poznámok o Transformers. + +Úlohy: + +- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT. +- Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA. +Použite server quadro alebo Kaggle. +- Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články. + + + + +# Diplomový projekt 2024 Ciele na semester: @@ -32,6 +54,7 @@ Vybrať jednu z úloh: - Tvorba instruct datasetu - Anotácia alebo preklad množín - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT + Stretnutie 7.6.2024 Stav: From 2f2f770fb9ec0ca1e052e713439540cbd40d2287 Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 15 Oct 2024 09:02:34 +0000 Subject: [PATCH 04/22] Update pages/students/2019/patrik_pokrivcak/README.md --- .../students/2019/patrik_pokrivcak/README.md | 30 ++++++++++++++++--- 1 file changed, 26 insertions(+), 4 deletions(-) diff --git a/pages/students/2019/patrik_pokrivcak/README.md b/pages/students/2019/patrik_pokrivcak/README.md index c2d0451e..8f7cd3f4 100644 --- a/pages/students/2019/patrik_pokrivcak/README.md +++ b/pages/students/2019/patrik_pokrivcak/README.md @@ -34,17 +34,39 @@ Súvisiaca téma: - [Hate Speech](/topics/hatespeech) - [Tetiana Mahorian](/students/2022/tetiana_mohorian) + +Stretnutie 15.10. + +Stav: + +- Staré poznámky. + +Úlohy: + +- Navrhnite prompt na klasifikáciu nenávistnej reči a vyhodnotte, aký presný je model na množine https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak. Vyskúšajte viac modelov. Vyskúšajte aj https://huggingface.co/slovak-nlp/mistral-sk-7b +- Pokračujte v písaní DP. Použite odkazy na odborné články, + +Zásobník úloh: + +- Dotrénujte model na klasifikáciu nenávistnej reči. +- Dotrénujte model na generovanie nenávistnej reči. +- Vyskúšajte SentenceTransformer (me5) na klasifikáciu. + + + +## Diplomový projekt 2024 + Stretnutie 10.5.2024 Stav: -- Poznámky o neurónových sieťach a rozbehané HF tarnsformers. +- Poznámky o neurónových sieťach a rozbehané HF transformers. - Práca s Kaggle. Úlohy: - Pokračovať v otvorených úlohách a štúdiu. -- Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr. +- [ ] Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr. - Prečítajte si niekoľko vedeckých článkov o klasifikácii HS, poznačte si ich informácie a urobte si poznámky. Na vyhľadanie článkov použite google scholar. Zásobník úloh: @@ -73,8 +95,8 @@ Stretnutie 15.2. Úlohy: - [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python. -- [-] Prečítajte si Dive into Python 3. -- [ ] Priečítajte si Dive into Deep learning. +- [x] Prečítajte si Dive into Python 3. +- [x] Priečítajte si Dive into Deep learning. - [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany. - [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany. From 5208ea17f0bd0feb2d353f19147ac46dad97023f Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 15 Oct 2024 09:20:11 +0000 Subject: [PATCH 05/22] Update pages/students/2019/filip_tomas/README.md --- pages/students/2019/filip_tomas/README.md | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index e2c464a5..d13de8a5 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -28,6 +28,18 @@ Ciel: Spolupráca Michal Stromko, Kristián Sopkovič. +Stretnutie 15.10.2024 + +Stav: + +- Rozpísaná práca +- Príprava na nasadenie Milvus DB na RPI klaster. + +Úlohy: + +- Píšte prácu: Definuje úlohu. Napíšte súčasný stav. Predstavte naše riešenie. Vyhodnotte naše riešenie. Postupujte od všeobnecného ku konkrétnemu. +- Pokračujte v práci na HW a SW. + Stretnutie 27.9.2024 Stav: From bd987ff9f21079165fb68a76788242fb75c7b2a0 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 17 Oct 2024 07:14:11 +0000 Subject: [PATCH 06/22] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 04675c92..c880a12b 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -29,6 +29,13 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation +17.10.20204 + +Stav: + +- Funguje web rozhranie. + + 27.9.2024 Stav: From 5509f9c143b3606cd3d7a643d7d538ea1d6253c6 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 17 Oct 2024 07:23:55 +0000 Subject: [PATCH 07/22] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 7 ++++++- 1 file changed, 6 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index c880a12b..aabb1e97 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -33,9 +33,14 @@ RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generatio Stav: -- Funguje web rozhranie. +- Funguje web rozhranie aj vyhľadávanie. +- Kódy sú na gite. Využíva sa Flask, Huggingface API pre Mistral Small. Na vetkoryu MiniLM2 +Úlohy + +- Otázka: Je to hybriné vyhľadávanie? + 27.9.2024 Stav: From 9ce49ff66fb3520d50cf2fda78c651a86b6dbde4 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 17 Oct 2024 07:31:18 +0000 Subject: [PATCH 08/22] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 8 ++++++-- 1 file changed, 6 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index aabb1e97..5cd4b7b7 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -34,12 +34,16 @@ RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generatio Stav: - Funguje web rozhranie aj vyhľadávanie. -- Kódy sú na gite. Využíva sa Flask, Huggingface API pre Mistral Small. Na vetkoryu MiniLM2 +- Kódy sú na gite. Využíva sa Flask, Mistral API pre Mistral-Small (nebeží lokálne). Na vektory MiniLM2 +- Napísané poznámky o praktickej časti. Úlohy -- Otázka: Je to hybriné vyhľadávanie? +- Otázka: Je to hybridné vyhľadávanie? +- Začnite písať teoretickú časť práce. +- Pokračujte v práci na frontende aj backende, tak aby to dobre vyzeralo aj dobre fungovalo - aby sa to dalo použiť ako demo. Treba dávať pozor na právnu zodpovednosť. + 27.9.2024 From dce18ad84880e7607db91453c12e882cc09a8947 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 17 Oct 2024 07:38:34 +0000 Subject: [PATCH 09/22] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 5cd4b7b7..25498d41 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -43,6 +43,13 @@ Stav: - Otázka: Je to hybridné vyhľadávanie? - Začnite písať teoretickú časť práce. - Pokračujte v práci na frontende aj backende, tak aby to dobre vyzeralo aj dobre fungovalo - aby sa to dalo použiť ako demo. Treba dávať pozor na právnu zodpovednosť. +- Kódy dávajte na git. + +Zásobník úloh: + +- Pripravte modely na lokálne nasadenie pomocou inferenčného servra (vllm, ctranslate2). Chceme aby modely bežali cez (OpenAI) API na našej infraštruktúre. +- Vyskúšajte Váš systém s lepšími modelmi (Slovak Mistral, iný väčší model, na vektory me5 alebo slovakbert-mnlr). +- pripravte nasadenie aplikácie pomocou systému Docker Compose. 27.9.2024 From fc30546f7f681f9a8da83e65af60c9ae44c6a0a2 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 17 Oct 2024 07:47:01 +0000 Subject: [PATCH 10/22] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 25498d41..f66ec0ef 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -42,7 +42,8 @@ Stav: - Otázka: Je to hybridné vyhľadávanie? - Začnite písať teoretickú časť práce. -- Pokračujte v práci na frontende aj backende, tak aby to dobre vyzeralo aj dobre fungovalo - aby sa to dalo použiť ako demo. Treba dávať pozor na právnu zodpovednosť. +- Pokračujte v práci na frontende aj backende, tak aby to dobre vyzeralo aj dobre fungovalo - aby sa to dalo použiť ako demo. Treba dávať pozor na právnu zodpovednosť. +- Vyskúšajte rôzne spôsoby vyhľadávania - aj sparse (riedke vyhľadávanie). - Kódy dávajte na git. Zásobník úloh: @@ -50,6 +51,7 @@ Zásobník úloh: - Pripravte modely na lokálne nasadenie pomocou inferenčného servra (vllm, ctranslate2). Chceme aby modely bežali cez (OpenAI) API na našej infraštruktúre. - Vyskúšajte Váš systém s lepšími modelmi (Slovak Mistral, iný väčší model, na vektory me5 alebo slovakbert-mnlr). - pripravte nasadenie aplikácie pomocou systému Docker Compose. +- Urobte číslelné vyhodnotenie vyhľadávania. Toto má na starosti Yevhenii Leonov. 27.9.2024 From a3e9d0c9dfd10fe9c6b2e0155274f36ae2727c10 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 18 Oct 2024 07:33:20 +0000 Subject: [PATCH 11/22] Update pages/students/2022/valerii_kutsenko/README.md --- pages/students/2022/valerii_kutsenko/README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 5b9d97af..c7c46d1f 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -29,6 +29,13 @@ Ako na to: - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom. - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. +Stretnutie 18.10.2024 + +Stav: + +- Natrénovaný model SlovakT5 Base. Skripty sú na GITe. +- Naštudované články o T5 a Falcon, napísané poznámky. + Stretnutie 27.9.2024 Stav: From 498aaaccf483e1d5156cd5a070657fd388797a12 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 18 Oct 2024 07:34:50 +0000 Subject: [PATCH 12/22] Update pages/students/2022/valerii_kutsenko/README.md --- pages/students/2022/valerii_kutsenko/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index c7c46d1f..2cbe5661 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -33,7 +33,7 @@ Stretnutie 18.10.2024 Stav: -- Natrénovaný model SlovakT5 Base. Skripty sú na GITe. +- Natrénovaný model SlovakT5 Base. Skripty sú na [GITe](https://git.kemt.fei.tuke.sk/vk202uf/bp2024). - Naštudované články o T5 a Falcon, napísané poznámky. Stretnutie 27.9.2024 From 4aa4ff8d461e2423e6c75637c5bb45f1a43d9d93 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 18 Oct 2024 07:57:44 +0000 Subject: [PATCH 13/22] Update pages/students/2022/valerii_kutsenko/README.md --- pages/students/2022/valerii_kutsenko/README.md | 17 +++++++++++++++-- 1 file changed, 15 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 2cbe5661..ff982511 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -7,7 +7,6 @@ taxonomy: author: Daniel Hladek --- - rok začiatku štúdia: 2022 # Bakalárska práca 2025 @@ -33,9 +32,23 @@ Stretnutie 18.10.2024 Stav: -- Natrénovaný model SlovakT5 Base. Skripty sú na [GITe](https://git.kemt.fei.tuke.sk/vk202uf/bp2024). +- Natrénovaný model SlovakT5 Base. Skripty sú na [GITe](https://git.kemt.fei.tuke.sk/vk202uf/bp2024). Trénovanie funguje. - Naštudované články o T5 a Falcon, napísané poznámky. +Úlohy: + +- Doplnte vyhodnotenie modelu pomocu BLEU Skore. Ako testovaciu množinu použite testovaciu časť SkQUAD. +- Natrénujte aj iné modely: mt5-base, SlavicT5-base, umt5-base. Opíšte testovací scenár - ako ste dotrénovali model . Vyhodnotte ich v tabuľke. Do práce napíšte o týchto modeloch. + +Zásobník úloh: + +- SKúste natrénovať aj modely typu GPT. Tam bude treba upraviť skript na model typu GPT - SlovakMistral 7B. Titeo modely sú veľké. Budete potrebovať prístup na školský server. Budete potrebovať použiť mnetódu: quantization (bitsandbytes) a peft (parameter efficient fine tuning). +- Ako bude model dobrý, tak ho uverejníme na repoztári Huggingface Hub. +- Ak bude práca dobrá, skúsime prepracovať a urobiť článok na konferencii. +- V spolupráci Y. Leonov urobiť vyhodnotenie aj v medicínskej doméne. +- Skúsíme poprosiť doktorov o názor. + + Stretnutie 27.9.2024 Stav: From c62fe1f3edbfe247b94592137d4e2e93da59c25d Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 18 Oct 2024 08:00:33 +0000 Subject: [PATCH 14/22] Update pages/students/2022/valerii_kutsenko/README.md --- pages/students/2022/valerii_kutsenko/README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index ff982511..286ab5a6 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -60,7 +60,7 @@ Stav: - Zistite ako sa dotrénujú generatívne modely HuggingFace. Zistite čo je to Few Shot learning a *urobte si poznámky*. - Prečítajte si článok o modele Falcon a napíšte ako funguje. Prečítajte si článok o modele T5 a napíšte ako funguje. -- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Falcon 7 B. +- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Mistral 7 B. - Oboznámte sa s Hugggingface API a OpenAI API. Na generovanie môžete použiť aj toto api. - Skripty na dotrénovanie dávajte do GIT repozitára. @@ -68,7 +68,7 @@ Zásobník úloh: - Zoberte databázu liekov a generujte otázky o liekoch - od Ing. K. Sopkovič, alebo O. Poiasnik. - Možno bude treba použiť ChatGPT API a príklady z databázy SK QUAD. -- Možno bude treba dotrénovať Slovak Falcon 7B na inštrukcie. +- Možno bude treba dotrénovať Slovak Mistral 7B na inštrukcie. Staré Úlohy: From 52255aec0f45caf58b8e0695c3f79a20187f96f7 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 18 Oct 2024 09:33:42 +0000 Subject: [PATCH 15/22] Update pages/students/2022/tetiana_mohorian/README.md --- .../students/2022/tetiana_mohorian/README.md | 44 ++++++++++++++----- 1 file changed, 32 insertions(+), 12 deletions(-) diff --git a/pages/students/2022/tetiana_mohorian/README.md b/pages/students/2022/tetiana_mohorian/README.md index c6537153..bb10c9f7 100644 --- a/pages/students/2022/tetiana_mohorian/README.md +++ b/pages/students/2022/tetiana_mohorian/README.md @@ -26,25 +26,45 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov. - Aplikujte existujúci model na úlohu detekcie nenávistnej reči. - Na adaptáciu použite "prompting" a "LORA". - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). -c + +Stretnutie 18.10.2024 + +Stav: + +- Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita. +- Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán. +- Nainštalovaná OLLama, Transformers, vyskúšaný Mistral. +- Urobené všetko. + +Úlohy: + +- Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar). +- Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči. +- Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1. +- Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness. + + +Zásobník úloh: + +- Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. +- Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. +- Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. Stretnutie 3.10.2024 - - Úlohy: -- Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad. -- Prejdite si knihu Dive Deep into Python 3. -- Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. -- Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky. -- Oboznámte sa s OPEN AI Python API. -- Nainštalujte si prostredie Anaconda. -- Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica. -- Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely +- [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad. +- [x] Prejdite si knihu Dive Deep into Python 3. +- [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. +- [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky. +- [x] Oboznámte sa s OPEN AI Python API. +- [x] Nainštalujte si prostredie Anaconda. +- [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica. +- [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely Zásobník úloh: -- Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/) +- [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/) From 0534b21a1a9ebdc71d7c13f0533003ee54de38ca Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 29 Oct 2024 09:54:17 +0000 Subject: [PATCH 16/22] Update pages/students/2020/david_kostilnik/README.md --- pages/students/2020/david_kostilnik/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2020/david_kostilnik/README.md b/pages/students/2020/david_kostilnik/README.md index 77975a9f..1755e5fa 100644 --- a/pages/students/2020/david_kostilnik/README.md +++ b/pages/students/2020/david_kostilnik/README.md @@ -18,7 +18,7 @@ Téma: Sémantické vyhľadávanie pomocou veľkých modelov - Tvorba datasetu prekladom, využitie existujúcich datasetov -- Dotrénovanie existujúceho modelu +- Dotrénovanie existujúceho modelu pomocou preloženého MS MARCO. Ciele: From 10c5517013ff111bf4aed65bc45068d8b2048cf8 Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 29 Oct 2024 10:01:56 +0000 Subject: [PATCH 17/22] Update pages/students/2020/david_kostilnik/README.md --- pages/students/2020/david_kostilnik/README.md | 23 ++++++++++++++++++- 1 file changed, 22 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/david_kostilnik/README.md b/pages/students/2020/david_kostilnik/README.md index 1755e5fa..ccdfe6e3 100644 --- a/pages/students/2020/david_kostilnik/README.md +++ b/pages/students/2020/david_kostilnik/README.md @@ -24,6 +24,27 @@ Ciele: - Zlepšiť RAG. + +Stretnutie 29.1.2024 + +Stav: + +- Prečítané nejaké články. Inak nič. + +Úlohy: + + +- Podrobne si naštudujte a vyskúšajte framework Sentence Transformers. Využite Google Colab. +- Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu na databáze MS Marco. + +Zásobník úloh: + +- pracujte na servri quadro a prostredí Anaconda. + + + +## Diplomový projekt 2024 + Stretnutie 4.4. 2024 Úlohy: @@ -45,5 +66,5 @@ Stretnutie 15.2.2024 Úlohy: - Oboznámte sa s prácou [K. Sopkovič](/students/2019/kristian_sopkovic) a [M. Stromko](/students/2019/michal_stromko). -- + From fae1be974e7397afc8688af1c22d20843c7fdbdb Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 29 Oct 2024 10:09:19 +0000 Subject: [PATCH 18/22] Update pages/students/2020/david_kostilnik/README.md --- pages/students/2020/david_kostilnik/README.md | 10 ++++++---- 1 file changed, 6 insertions(+), 4 deletions(-) diff --git a/pages/students/2020/david_kostilnik/README.md b/pages/students/2020/david_kostilnik/README.md index ccdfe6e3..242cdc5e 100644 --- a/pages/students/2020/david_kostilnik/README.md +++ b/pages/students/2020/david_kostilnik/README.md @@ -18,14 +18,14 @@ Téma: Sémantické vyhľadávanie pomocou veľkých modelov - Tvorba datasetu prekladom, využitie existujúcich datasetov -- Dotrénovanie existujúceho modelu pomocou preloženého MS MARCO. +- Dotrénovanie existujúceho modelu typu BERT pomocou preloženého MS MARCO. Ciele: - Zlepšiť RAG. -Stretnutie 29.1.2024 +Stretnutie 29.10.2024 Stav: @@ -34,12 +34,14 @@ Stav: Úlohy: -- Podrobne si naštudujte a vyskúšajte framework Sentence Transformers. Využite Google Colab. -- Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu na databáze MS Marco. +- Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady. +- Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco. +- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké článkuý nájdete na Google Scholar. Zásobník úloh: - pracujte na servri quadro a prostredí Anaconda. +- Natrénujte slovenský BERT model na preloženej databáze MS MARCO (WIP K. Sopkovič). From 58659f217cd086d5e93b840ad6d9eaa0abd700d4 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 30 Oct 2024 11:51:04 +0000 Subject: [PATCH 19/22] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 25 ++++++++++++++++----- 1 file changed, 20 insertions(+), 5 deletions(-) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index d9a85f83..78c77f89 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -13,6 +13,7 @@ rok začiatku štúdia: 2022 # Bakalárksa práca 2025 + Cieľ: - Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít. @@ -22,14 +23,28 @@ Do budúcnosti: - Vypracovanie webového dema - Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty). +Stretnutie 30.10.2024 + +Stav: + +- Napísané texty o NE. +- Vyskúšané a naštudované veci podľa pokynov, +- Začiatok práce na webovom deme. Úlohy: -- Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu. -- Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda. -- Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel -- Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice. -- Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slvenský jazyk https://github.com/slovak-nlp/resources +- Vyberte korpusy s NER pre slovenský jazyk + + +Stretnutie 20.5.20204 + +Úlohy: + +- [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu. +- [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda. +- [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel +- [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice. +- [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources Zásobník úloh: From 97e4f327c84db6affbb917722ac3ec822bd65850 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 30 Oct 2024 12:03:49 +0000 Subject: [PATCH 20/22] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 12 +++++++++++- 1 file changed, 11 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index 78c77f89..60e6e4b1 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -33,7 +33,17 @@ Stav: Úlohy: -- Vyberte korpusy s NER pre slovenský jazyk +- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. +- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. +- Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? + + +Zásobník úloh: + +- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný. +- Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. +- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom. +- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte. Stretnutie 20.5.20204 From d22679dab65dc9d695c291315f7e5881f0c94052 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 30 Oct 2024 12:04:03 +0000 Subject: [PATCH 21/22] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index 60e6e4b1..2acc17f1 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -10,7 +10,7 @@ taxonomy: rok začiatku štúdia: 2022 -# Bakalárksa práca 2025 +# Bakalárska práca 2025 From 4936ab1e9335d8fb8db97c2770d40cf32269137e Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 30 Oct 2024 12:17:27 +0000 Subject: [PATCH 22/22] Update pages/students/2022/serhii_yemets/README.md --- pages/students/2022/serhii_yemets/README.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index 2acc17f1..83c94a7e 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -34,13 +34,13 @@ Stav: Úlohy: - Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. -- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. +- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers. - Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? - +- Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification Zásobník úloh: -- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný. +- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný. - Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. - Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom. - Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte.