From 6a251795b35ce0322210545b9d55bbeafda3716c Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 22 Mar 2024 10:40:58 +0000 Subject: [PATCH 01/11] Update 'pages/students/2022/valerii_kutsenko/README.md' --- pages/students/2022/valerii_kutsenko/README.md | 7 +++++-- 1 file changed, 5 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 8b099f6c0..f1567ca58 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -13,10 +13,13 @@ rok začiatku štúdia: 2022 # Bakalárska práca 2025 -POdrobná téma zatiaľ nie je dohodnutá. +Podrobná téma zatiaľ nie je dohodnutá. + Cieľ je vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation - + +- Možno pomocou vytvorenia-prekladu vlastnej trénovacej databázy. +- Alebo zber trénovacích dát z webového korpusu. Úlohy na semester - "nepovinné, oficiálne sa to začne na zimný semester 2024" From bd728b347f3b76574a31768d51d8ec12ff7b8194 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 4 Apr 2024 11:10:31 +0000 Subject: [PATCH 02/11] Update 'pages/students/2020/david_kostilnik/README.md' --- pages/students/2020/david_kostilnik/README.md | 15 +++++++++++++++ 1 file changed, 15 insertions(+) diff --git a/pages/students/2020/david_kostilnik/README.md b/pages/students/2020/david_kostilnik/README.md index dae1b39d9..77975a9fd 100644 --- a/pages/students/2020/david_kostilnik/README.md +++ b/pages/students/2020/david_kostilnik/README.md @@ -24,6 +24,21 @@ Ciele: - Zlepšiť RAG. +Stretnutie 4.4. 2024 + +Úlohy: + +- Oboznámte sa s tým, ako funguje neurónová sieť typu Transformer. Urobte si poznámky. Poznačete si zdroje, uprednostnite vedecké články. +- Oboznámte sa ako funguje rekurentná neurónová sieť. Sústreďte sa na typ RWKV. Urobte si poznmámy. +- Vyskúšajte si túto NN. Začnite tu https://wiki.rwkv.com/basic/play.html + +Zásobník úloh: + +- Oboznámte sa ako funguje NN Mamba. +- Zostavte RAG systém s pomocou RWKV. +- Oboznámte sa ako funguje Sentence Transformer. +- Porovnajte embeddingy RWKV s inými metódami (Sentence Transformers) + Stretnutie 15.2.2024 From 32230d93e4a8c726bed13b37739366468fba9667 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 5 Apr 2024 07:47:51 +0000 Subject: [PATCH 03/11] Update 'pages/students/2019/patrik_pokrivcak/README.md' --- .../students/2019/patrik_pokrivcak/README.md | 23 +++++++++++++++---- 1 file changed, 18 insertions(+), 5 deletions(-) diff --git a/pages/students/2019/patrik_pokrivcak/README.md b/pages/students/2019/patrik_pokrivcak/README.md index 0397eb37e..e4c0b7736 100644 --- a/pages/students/2019/patrik_pokrivcak/README.md +++ b/pages/students/2019/patrik_pokrivcak/README.md @@ -28,15 +28,28 @@ Súvisiaca téma: - [Python](/topics/python) - [Hate Speech](/topics/hatespeech) +Stretnutie 5.4. + +Stav: + +- Začiatok štúdia Python a LMM. + +Úlohy: + +- Pokračujte v štúdiu neurónových sietí podľa otvorených úloh. +- Zistite, ako pracuje model GPT. Zistite čo je to prompting. +- Oboznámte sa s knižnicou HF transformers. Nainštalujte si ju. + Stretnutie 15.2. Úlohy: -- Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python. -- Prečítajte si Dive into Python 3. -- Priečítajte si Dive into Deep learning. -- Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany. -- Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany. +- [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python. +- [-] Prečítajte si Dive into Python 3. +- [ ] Priečítajte si Dive into Deep learning. +- [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany. +- [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany. + From 56535a22d3d1dcaf9157e1a095479ef66993be6b Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 5 Apr 2024 07:55:54 +0000 Subject: [PATCH 04/11] Update 'pages/students/2019/patrik_pokrivcak/README.md' --- pages/students/2019/patrik_pokrivcak/README.md | 7 ++++--- 1 file changed, 4 insertions(+), 3 deletions(-) diff --git a/pages/students/2019/patrik_pokrivcak/README.md b/pages/students/2019/patrik_pokrivcak/README.md index e4c0b7736..6fc8f6d65 100644 --- a/pages/students/2019/patrik_pokrivcak/README.md +++ b/pages/students/2019/patrik_pokrivcak/README.md @@ -36,9 +36,10 @@ Stav: Úlohy: -- Pokračujte v štúdiu neurónových sietí podľa otvorených úloh. -- Zistite, ako pracuje model GPT. Zistite čo je to prompting. -- Oboznámte sa s knižnicou HF transformers. Nainštalujte si ju. +- Pokračujte v štúdiu neurónových sietí a klasifikácie nenávsistnej reči podľa otvorených úloh. Píšte si poznámky. +- Zistite, ako pracuje model GPT. Zistite čo je to prompting. Navrhnite "prompt" pre ChatGPT ktorý by klasifikoval nenávistnú reč. +- Oboznámte sa s knižnicou HF transformers. Nainštalujte si ju. Prejdite si jeden alebo 2 tutoriály. +- Zistite ako funguje "few shot" alebo "zero shot" learning s GPT modelom. Vyskúšajte si to z HF Transformers. napr. https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api Stretnutie 15.2. From 5a3033991b1fe13d8fbae8dae785506489d52caf Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 5 Apr 2024 13:52:35 +0000 Subject: [PATCH 05/11] Update 'pages/students/2020/pavol_hudak/README.md' --- pages/students/2020/pavol_hudak/README.md | 20 +++++++++++++++++++- 1 file changed, 19 insertions(+), 1 deletion(-) diff --git a/pages/students/2020/pavol_hudak/README.md b/pages/students/2020/pavol_hudak/README.md index 1ff03336e..d6491d329 100644 --- a/pages/students/2020/pavol_hudak/README.md +++ b/pages/students/2020/pavol_hudak/README.md @@ -13,7 +13,18 @@ rok začiatku štúdia: 2020 Ciel: -Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu. +- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu. +- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku. + +Ciele na semester: + +- Zobrať veľký jazykový model (základný alebo instruct alebo chat). +- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. +- Vyhodnotiť presnosť QA dotrénovaného modelu. + +Ďalšie nápady: + +- Vybrať jednu z úloh: @@ -21,6 +32,13 @@ Vybrať jednu z úloh: - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT - Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning) +Stretnutie 5.4. + +Stav: + +- Nainštalované PrivateGPT. +- Nainštalovaná Anaconda a Python, aj štúdium a príprava. + Stretnutie 23.2. Stav: From ea3cf0455b1982c2dcbd1579131426a76f4d932f Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 5 Apr 2024 14:02:34 +0000 Subject: [PATCH 06/11] Update 'pages/students/2020/pavol_hudak/README.md' --- pages/students/2020/pavol_hudak/README.md | 14 +++++++++++--- 1 file changed, 11 insertions(+), 3 deletions(-) diff --git a/pages/students/2020/pavol_hudak/README.md b/pages/students/2020/pavol_hudak/README.md index d6491d329..64b291ec6 100644 --- a/pages/students/2020/pavol_hudak/README.md +++ b/pages/students/2020/pavol_hudak/README.md @@ -19,18 +19,18 @@ Ciel: Ciele na semester: - Zobrať veľký jazykový model (základný alebo instruct alebo chat). -- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. +- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka. +- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model. - Vyhodnotiť presnosť QA dotrénovaného modelu. Ďalšie nápady: -- +- Automaticky zlepšiť "prompt" pre QA. Vybrať jednu z úloh: - Tvorba instruct datasetu - Anotácia alebo preklad množín - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT -- Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning) Stretnutie 5.4. @@ -38,6 +38,14 @@ Stav: - Nainštalované PrivateGPT. - Nainštalovaná Anaconda a Python, aj štúdium a príprava. +- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT. + +Úlohy: + +- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model. +- Kandidáti sú UMT5, +- Vyhodnoote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). + Stretnutie 23.2. From 5d9122dad85d80da0aba60f64d7fcb34038a241f Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 5 Apr 2024 14:11:07 +0000 Subject: [PATCH 07/11] Update 'pages/students/2020/pavol_hudak/README.md' --- pages/students/2020/pavol_hudak/README.md | 10 ++++++++-- 1 file changed, 8 insertions(+), 2 deletions(-) diff --git a/pages/students/2020/pavol_hudak/README.md b/pages/students/2020/pavol_hudak/README.md index 64b291ec6..926713b2a 100644 --- a/pages/students/2020/pavol_hudak/README.md +++ b/pages/students/2020/pavol_hudak/README.md @@ -43,9 +43,15 @@ Stav: Úlohy: - Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model. -- Kandidáti sú UMT5, -- Vyhodnoote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). +- Vyskúšajte modely cez ollama. +- Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup. +- Kandidáti sú UMT5, TinyLLama, LLama, Mistral, Phi alebo iné. +- Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). +- Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT. +Zásobník úloh: + +- Strojovo preložiť databázu OpenORCA. Stretnutie 23.2. From 9a3d26f474a78ac459ced24057bc2a7604b7c2a4 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 12 Apr 2024 07:50:16 +0000 Subject: [PATCH 08/11] Update 'pages/students/2022/yevhenii_leonov/README.md' --- pages/students/2022/yevhenii_leonov/README.md | 19 ++++++++++++++++--- 1 file changed, 16 insertions(+), 3 deletions(-) diff --git a/pages/students/2022/yevhenii_leonov/README.md b/pages/students/2022/yevhenii_leonov/README.md index 0aed29da4..551f45a15 100644 --- a/pages/students/2022/yevhenii_leonov/README.md +++ b/pages/students/2022/yevhenii_leonov/README.md @@ -24,12 +24,25 @@ RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation - Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli. - Nainštalujte si a vyskúšajte softvér PrivateGPT +Stretnutie 12.4. + +Stav: + +- Učenie sa Pythonu, nainštalovaná Anaconda. +- Urobené stručné poznámky o RAG o BERT a o GPT. + +Úlohy: + +- Pokračujte v otvorených úlohách. +- Vyskúšajte systém OLLAMA. Keď to nejde na Windows, vyskúšajte Ubuntu WSL(2). +- Pracujte na "článku". + Stretnutie 22.3. Úlohy: -- Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3. -- Nainštalujte si PrivateGPT. Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky. -- Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. +- [-] Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3. +- [-] Nainštalujte si PrivateGPT. Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky. +- [-] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. From ec7e0f970290f6ac2abdf7741682e7577c1d7b63 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 12 Apr 2024 08:08:46 +0000 Subject: [PATCH 09/11] Update 'pages/students/2021/eduard_matovka/README.md' --- pages/students/2021/eduard_matovka/README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/pages/students/2021/eduard_matovka/README.md b/pages/students/2021/eduard_matovka/README.md index 88bfd82bc..d1db9883d 100644 --- a/pages/students/2021/eduard_matovka/README.md +++ b/pages/students/2021/eduard_matovka/README.md @@ -36,6 +36,13 @@ Predbežné úlohy: - Vytvorte webové demo. - Napísať vedecký článok z BP + +Stretnutie 12.4. + +Stav: + +- Vyskúšaná LLAMA2 cez HF PEFT (SlovakAlpaca+). Je náročná na RAM. Zatiaľ to vyzerá horšie ako LLAMA1. + Stretnutie 8.3. Stav: From 6e55139ffc80d72a163b00e5a25d1fd59c211f7b Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 12 Apr 2024 08:25:20 +0000 Subject: [PATCH 10/11] Update 'pages/students/2021/eduard_matovka/README.md' --- pages/students/2021/eduard_matovka/README.md | 13 +++++++++++++ 1 file changed, 13 insertions(+) diff --git a/pages/students/2021/eduard_matovka/README.md b/pages/students/2021/eduard_matovka/README.md index d1db9883d..ecf0b682b 100644 --- a/pages/students/2021/eduard_matovka/README.md +++ b/pages/students/2021/eduard_matovka/README.md @@ -42,6 +42,19 @@ Stretnutie 12.4. Stav: - Vyskúšaná LLAMA2 cez HF PEFT (SlovakAlpaca+). Je náročná na RAM. Zatiaľ to vyzerá horšie ako LLAMA1. +- Práca na texte. + +Úlohy: + +- Vyskúšajte model Gemma. Vyskúšajte model RWKV (tento nie je Trannsformer, je to RNN) s množinou SlovakAlpaca. Výsledky experimentov (BLEU alebo ROUGE) dajte do tabuľky. +- Pokračujte v písaní práce. Opíšte experimenty. Opíšte aj dataset ktorý používate. V teroetickej časti opíšte metódy neurónových sietí aj úlohu ktorú riešime. Ako súvisí s konverzáciou. +- Pokračujte v otvorených úlohách: Zdrojáky dajte na git, dáta na školský server. + + +Zásobník úloh: + +- Ako zlepšíme veľké jazykové modely pre slovenčinu? + Stretnutie 8.3. From d9ded4c56a592bbadcb5554460b35a6ecde57cef Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 12 Apr 2024 08:27:50 +0000 Subject: [PATCH 11/11] Update 'pages/students/2021/eduard_matovka/README.md' --- pages/students/2021/eduard_matovka/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2021/eduard_matovka/README.md b/pages/students/2021/eduard_matovka/README.md index ecf0b682b..27dbb4d13 100644 --- a/pages/students/2021/eduard_matovka/README.md +++ b/pages/students/2021/eduard_matovka/README.md @@ -41,7 +41,7 @@ Stretnutie 12.4. Stav: -- Vyskúšaná LLAMA2 cez HF PEFT (SlovakAlpaca+). Je náročná na RAM. Zatiaľ to vyzerá horšie ako LLAMA1. +- Vyskúšaná LLAMA2 cez HF AutoTrain (SlovakAlpaca+). Je náročná na RAM. Zatiaľ to vyzerá horšie ako LLAMA1. - Práca na texte. Úlohy: