From 4297a48520b6f962317a16aaed194f303463aa02 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 18 Sep 2024 07:30:19 +0000 Subject: [PATCH 01/15] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 9 ++++++++- 1 file changed, 8 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index ab49b0f19b..9887928acb 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -20,8 +20,15 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí - Vyhodnotte či je zadané tvrdenie v súlade s legislatívou alebo nie. -RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation +RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation +Stretnutie 18.9.2024 + +Stav: + +- Vyskúšaný model bioBERT, cez Transformers, Anaconda na malom datasete na notebooku +- ElasticSearch Python API +- vlastný skript na SBERT Stretnutie 26.4.2024 From 9e4799fc1dd8e3d7b2c5bb61969c4b5e7fec0004 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 18 Sep 2024 07:40:10 +0000 Subject: [PATCH 02/15] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 9887928acb..ead80c7726 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -28,7 +28,7 @@ Stav: - Vyskúšaný model bioBERT, cez Transformers, Anaconda na malom datasete na notebooku - ElasticSearch Python API -- vlastný skript na SBERT +- vlastný skript na indexovanie pomocou SBERT Stretnutie 26.4.2024 From 48f8d348b547d48466d685b86209001e8bd49d02 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 18 Sep 2024 07:59:46 +0000 Subject: [PATCH 03/15] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 21 +++++++++++++++++++++ 1 file changed, 21 insertions(+) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index ead80c7726..920963c3ad 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -12,6 +12,13 @@ rok začiatku štúdia: 2022 # Bakalárska práca 2025 +Nové zadanie: + +Chceme vytvoriť asistenta pre farmaceuta alebo zákazníka lekárne pre vyhľadávanie v príbalových letákoch. + + +Staré zadanie: + Vyhľadávanie právnych informácií pomocou neurónových sietí - Oboznámte sa s existujúcimi modelmi pre vyhľadávanie v texte. @@ -30,6 +37,20 @@ Stav: - ElasticSearch Python API - vlastný skript na indexovanie pomocou SBERT +Úlohy: + +- vhodné modely pre slovenský jazyk: me5-base pre vektorové vyhľadávanie. Ale ako použijete ES, tak nie je potrebný. Pre generovanie: je možné použiť OpenAI API alebo HuggingfaceAPI, má obmedzenie. Otvorené modely: LLama3, RWKV, Sovenský Mistral 7B TBA. +- Na začiatok skúste rozbehať postup s PrivateGPT, OpenAI API a vyhľadávaním (pomocou ES alebo me5-base alebo OpenAI API - ADA embedding). +- Dáta dodá Kristián Sopkovič - cez Teams sa spojte. +- Pokračujte v štúdiu Python, Transformers. Oboznámte sa s LangChain. +- Prečítajte si tento článok https://arxiv.org/abs/1908.10084 a urobte si poznámky. + +Zásobník úloh: + +- Urobte množinu na vhodnotenie. Vytvoríte množinu vzorových otázok a odpovedí. Vyhodnotte celý proces. +- Modely by mali bežať na našej infraštruktúre. Treba pripravť vhodný inferenčný server na našom HW, vybrať a dotrénovať vhodný model. + + Stretnutie 26.4.2024 Úlohy: From e39200ee7fc3bf5332e04b18e14ff58ab8ea8ae8 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 18 Sep 2024 08:04:16 +0000 Subject: [PATCH 04/15] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 920963c3ad..abcdab50ac 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -41,6 +41,7 @@ Stav: - vhodné modely pre slovenský jazyk: me5-base pre vektorové vyhľadávanie. Ale ako použijete ES, tak nie je potrebný. Pre generovanie: je možné použiť OpenAI API alebo HuggingfaceAPI, má obmedzenie. Otvorené modely: LLama3, RWKV, Sovenský Mistral 7B TBA. - Na začiatok skúste rozbehať postup s PrivateGPT, OpenAI API a vyhľadávaním (pomocou ES alebo me5-base alebo OpenAI API - ADA embedding). +- Urobte si lokálnu inštaláciu PrivateGPT na Vaešom notebooku. Zmente konfiguráciu - modely a prompty - Dáta dodá Kristián Sopkovič - cez Teams sa spojte. - Pokračujte v štúdiu Python, Transformers. Oboznámte sa s LangChain. - Prečítajte si tento článok https://arxiv.org/abs/1908.10084 a urobte si poznámky. @@ -49,7 +50,7 @@ Zásobník úloh: - Urobte množinu na vhodnotenie. Vytvoríte množinu vzorových otázok a odpovedí. Vyhodnotte celý proces. - Modely by mali bežať na našej infraštruktúre. Treba pripravť vhodný inferenčný server na našom HW, vybrať a dotrénovať vhodný model. - +- Preskúmať využitie Knowledge Graph pre spracovanie medicínskych dát. Stretnutie 26.4.2024 From 87ba0e3dd381cf8bdbd13726168efd5c27b5a439 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 27 Sep 2024 07:18:12 +0000 Subject: [PATCH 05/15] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 15 ++++++++++++--- 1 file changed, 12 insertions(+), 3 deletions(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index abcdab50ac..15c5afea76 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -29,6 +29,15 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation +27.9.2024 + +Stav: + +- Vyskúšané generatívne modely - OpenAI aj HuggingFace Prakticky sú nepoužiteľné, kvôli tomu, že chybné požiadavky míňajú kredit. Kreditu je málo na deň. +- Výskúšaný Slovenský Mistral "slovak-nlp/mistral-sk-7b". Výskúšané cez API skript. +- Nainštalovaný PrivateGPT. Zaindexovaná databáza liekov cez ElasticSearch a implementovaný RAG s modelom Slovak Mistral. Funguje to celkom dobre na dopyt o bolesti hlavy. + + Stretnutie 18.9.2024 Stav: @@ -41,14 +50,14 @@ Stav: - vhodné modely pre slovenský jazyk: me5-base pre vektorové vyhľadávanie. Ale ako použijete ES, tak nie je potrebný. Pre generovanie: je možné použiť OpenAI API alebo HuggingfaceAPI, má obmedzenie. Otvorené modely: LLama3, RWKV, Sovenský Mistral 7B TBA. - Na začiatok skúste rozbehať postup s PrivateGPT, OpenAI API a vyhľadávaním (pomocou ES alebo me5-base alebo OpenAI API - ADA embedding). -- Urobte si lokálnu inštaláciu PrivateGPT na Vaešom notebooku. Zmente konfiguráciu - modely a prompty +- Urobte si lokálnu inštaláciu PrivateGPT na Vašom notebooku. Zmente konfiguráciu - modely a prompty - Dáta dodá Kristián Sopkovič - cez Teams sa spojte. - Pokračujte v štúdiu Python, Transformers. Oboznámte sa s LangChain. -- Prečítajte si tento článok https://arxiv.org/abs/1908.10084 a urobte si poznámky. +- Prečítajte si tento článok https://arxiv.org/abs/1908.10084 o sentence transformers a urobte si poznámky. Zásobník úloh: -- Urobte množinu na vhodnotenie. Vytvoríte množinu vzorových otázok a odpovedí. Vyhodnotte celý proces. +- Urobte množinu na vyhdnotenie. Vytvoríte množinu vzorových otázok a odpovedí. Vyhodnotte celý proces. - Modely by mali bežať na našej infraštruktúre. Treba pripravť vhodný inferenčný server na našom HW, vybrať a dotrénovať vhodný model. - Preskúmať využitie Knowledge Graph pre spracovanie medicínskych dát. From ab6865ecaa7ad46526576df313ed02f9c51145e9 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 27 Sep 2024 07:21:46 +0000 Subject: [PATCH 06/15] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 15c5afea76..e0495527c4 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -37,6 +37,14 @@ Stav: - Výskúšaný Slovenský Mistral "slovak-nlp/mistral-sk-7b". Výskúšané cez API skript. - Nainštalovaný PrivateGPT. Zaindexovaná databáza liekov cez ElasticSearch a implementovaný RAG s modelom Slovak Mistral. Funguje to celkom dobre na dopyt o bolesti hlavy. +Úlohy: + +- Pokračukte v štúdiu LangChain. Prejdite si tutoriály. +- Čítajte články a robte si poznámky. Pozrite si článok o modeli Mistral, o sentence transformeroch, aj o "retrieval augmented generation". Na vyhľadanie článku použite google scholar. +- Konfiguračné skripty na Privategpt a skripty pre prípravu dát dajte na git repozitár. Na kemt.git.fei.tuke.sk. Skripty by mali byť opakovateľné. + +Zásobník úloh: + Stretnutie 18.9.2024 From a29ca8833a27a4efbcb9202c252a66d7bf3d1f7f Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 27 Sep 2024 07:28:54 +0000 Subject: [PATCH 07/15] Update pages/students/2022/oleh_poiasnik/README.md --- pages/students/2022/oleh_poiasnik/README.md | 10 +++++++++- 1 file changed, 9 insertions(+), 1 deletion(-) diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index e0495527c4..04675c9230 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -39,12 +39,20 @@ Stav: Úlohy: -- Pokračukte v štúdiu LangChain. Prejdite si tutoriály. +- Pokračujte v štúdiu LangChain. Prejdite si tutoriály. - Čítajte články a robte si poznámky. Pozrite si článok o modeli Mistral, o sentence transformeroch, aj o "retrieval augmented generation". Na vyhľadanie článku použite google scholar. +- Vytvorte skript pre indexovanie a prípravu dát, dajte ho na git. - Konfiguračné skripty na Privategpt a skripty pre prípravu dát dajte na git repozitár. Na kemt.git.fei.tuke.sk. Skripty by mali byť opakovateľné. + Zásobník úloh: +- Lepšie pripraviť dáta. Bude treba vyradiť lieky pre zvieratá. Texty bude treba predpripraviť. O lieku bude treba zistiť metainformácie. Bude treba vyznačiť, či je liek na lekársky predpis alebo nie. +- Model bude treba dotrénovať na inštrukcie, použiť databázu Slovak Alpaca. +- Pripraviť "inteligentného agenta" pre vyhľadávanie, aby sa vedel spýtať dolnňujúce otázky. Prečítajte si článok o ReACT. +- Pripraviť vlastné webové rozhranie a backend LangChain. + + Stretnutie 18.9.2024 From b27f66b38b2ef3abb38787f52a568316ae686db6 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 27 Sep 2024 08:05:27 +0000 Subject: [PATCH 08/15] Update pages/students/2022/valerii_kutsenko/README.md --- .../students/2022/valerii_kutsenko/README.md | 25 +++++++++++++++++-- 1 file changed, 23 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 060790b843..5b9d97afe2 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -20,8 +20,8 @@ Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. v Nové nápady: - Vytvorte systém pre generovanie otázok o zadanom texte. -- Vytvorte umelo generovanú množinu otázok a odpovedí. -- Pomocou umelej množiny zlepšite existujúci systém pre otázky a odpovede. +- Vytvorte umelo generovanú množinu otázok a odpovedí o liekoch. +- Pomocou umelej množiny zlepšite existujúci systém pre otázky a odpovede o liekoch. Ako na to: @@ -29,8 +29,29 @@ Ako na to: - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom. - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. +Stretnutie 27.9.2024 + +Stav: + +- Prezereté repozitáre a články. Napísané poznámky. +- Vytvorený prázdny git repozitár. + Úlohy: +- Zistite ako sa dotrénujú generatívne modely HuggingFace. Zistite čo je to Few Shot learning a *urobte si poznámky*. +- Prečítajte si článok o modele Falcon a napíšte ako funguje. Prečítajte si článok o modele T5 a napíšte ako funguje. +- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Falcon 7 B. +- Oboznámte sa s Hugggingface API a OpenAI API. Na generovanie môžete použiť aj toto api. +- Skripty na dotrénovanie dávajte do GIT repozitára. + +Zásobník úloh: + +- Zoberte databázu liekov a generujte otázky o liekoch - od Ing. K. Sopkovič, alebo O. Poiasnik. +- Možno bude treba použiť ChatGPT API a príklady z databázy SK QUAD. +- Možno bude treba dotrénovať Slovak Falcon 7B na inštrukcie. + +Staré Úlohy: + - Zistite, aké sú možné prístupy ku generovaniu otázok pomocou generatívneho modelu a aké sú možné prístupy k overeniu vygenerovanej otázky. - Pozrite si repozitár https://github.com/patil-suraj/question_generation - Pozrite si repozitár https://github.com/gauthierdmn/question_generation From b15765bb2224930b99c0ff1c38dfb16b3308bca2 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 27 Sep 2024 08:27:31 +0000 Subject: [PATCH 09/15] Update pages/students/2019/filip_tomas/README.md --- pages/students/2019/filip_tomas/README.md | 10 ++++++++++ 1 file changed, 10 insertions(+) diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index 29649e240b..87e5a01cce 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -28,6 +28,16 @@ Ciel: Spolupráca Michal Stromko, Kristián Sopkovič. +Stretnutie 27.9.2024 + +Stav: + +- Urobené vyhľadávanie Milvus, odstavce sú v sqlite. +- Indexovanie je v osobitnom skripte. +- Urobené web rozhranie pomocou Flask. + + + Stretnutie 23.7.2024 Stav: From 878733dec1bdeb195832784817cf910e359242fb Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 27 Sep 2024 08:44:30 +0000 Subject: [PATCH 10/15] Update pages/students/2019/filip_tomas/README.md --- pages/students/2019/filip_tomas/README.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index 87e5a01cce..e2c464a540 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -36,7 +36,12 @@ Stav: - Indexovanie je v osobitnom skripte. - Urobené web rozhranie pomocou Flask. +Úlohy: +- Na indexovanie používajte server quadro - 4 GPU karty 1080 12GB RAM. Prístup dá vedúci. Skript upravte tak, aby používal všetky 4 karty. Urobte meranie o koľko sa zrýchlylo spracovanie. Prihlásite sa ccez SSH `filip@quadro.kemt.fei.tuke.sk` . Server je dostupn7 iba cez VPN. Vytvoríte si prostredie Anaconda. Dlhý skript pustíte pomocou screen alebo tmux. +- Na RPI klaster k8s urobte paralelný deployment Milvus a mongodb aj webové rozhranie. +- Pokračujte v štúdiu LangChain. +- Pokračujte v písaní - sentence transformers, retrieval augmented generation, distributed database. Stretnutie 23.7.2024 From 3d172dbe100b3dfb9f15197a18aa62eb363e650e Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 3 Oct 2024 07:26:15 +0000 Subject: [PATCH 11/15] Update pages/students/2022/tetiana_mohorian/README.md --- pages/students/2022/tetiana_mohorian/README.md | 13 +++++++++++-- 1 file changed, 11 insertions(+), 2 deletions(-) diff --git a/pages/students/2022/tetiana_mohorian/README.md b/pages/students/2022/tetiana_mohorian/README.md index c30e6d2605..c6537153a6 100644 --- a/pages/students/2022/tetiana_mohorian/README.md +++ b/pages/students/2022/tetiana_mohorian/README.md @@ -25,17 +25,26 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov. - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. - Aplikujte existujúci model na úlohu detekcie nenávistnej reči. - Na adaptáciu použite "prompting" a "LORA". -- Vyhodnotte model pomocou overovacej množiny. +- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). +c + +Stretnutie 3.10.2024 + + Úlohy: - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad. -- Nainštalujte si prostredie Anaconda. - Prejdite si knihu Dive Deep into Python 3. - Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. - Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky. +- Oboznámte sa s OPEN AI Python API. +- Nainštalujte si prostredie Anaconda. - Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica. - Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely + +Zásobník úloh: + - Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/) From b9bf1258095f5b0c7cb77d8025ce6cbff141ebd8 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 3 Oct 2024 07:37:46 +0000 Subject: [PATCH 12/15] Update pages/interns/oliver_pejic/README.md --- pages/interns/oliver_pejic/README.md | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/pages/interns/oliver_pejic/README.md b/pages/interns/oliver_pejic/README.md index 9b4097a87d..128f6afb58 100644 --- a/pages/interns/oliver_pejic/README.md +++ b/pages/interns/oliver_pejic/README.md @@ -23,6 +23,18 @@ Final Tasks: - [Machine translate](https://huggingface.co/google/madlad400-3b-mt) an SBERT evaluation set for multiple slavic languages. - Write a short scientific paper with results. +Meeting 3.10.: + +State: + +- Prepared a pull request for Retrieval SK Quad. +- Prepared a pull request for Hate Speech Slovak. + +Tasks: + +- Submit pull requests to MTEB project. + + Meeting 3.9: State: Studied MTEB framework and transformers. From 3cdf28843b7a0f7ad466a997f055681d3c0a3206 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 3 Oct 2024 07:42:17 +0000 Subject: [PATCH 13/15] Update pages/interns/oliver_pejic/README.md --- pages/interns/oliver_pejic/README.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/pages/interns/oliver_pejic/README.md b/pages/interns/oliver_pejic/README.md index 128f6afb58..f6419385c5 100644 --- a/pages/interns/oliver_pejic/README.md +++ b/pages/interns/oliver_pejic/README.md @@ -32,7 +32,11 @@ State: Tasks: +- Make the pull request compatible with the MTEB Contribution guidelines. Discuss it when it is done. - Submit pull requests to MTEB project. +- Machine Translate a database (HotpotQA) and subnit it to HuggingFace Hub + + Meeting 3.9: From cacf1872e179d0ca88735a4c11af4ce3804343a4 Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 3 Oct 2024 07:48:58 +0000 Subject: [PATCH 14/15] Update pages/interns/oliver_pejic/README.md --- pages/interns/oliver_pejic/README.md | 6 ++++-- 1 file changed, 4 insertions(+), 2 deletions(-) diff --git a/pages/interns/oliver_pejic/README.md b/pages/interns/oliver_pejic/README.md index f6419385c5..8abf07c304 100644 --- a/pages/interns/oliver_pejic/README.md +++ b/pages/interns/oliver_pejic/README.md @@ -34,10 +34,12 @@ Tasks: - Make the pull request compatible with the MTEB Contribution guidelines. Discuss it when it is done. - Submit pull requests to MTEB project. -- Machine Translate a database (HotpotQA) and subnit it to HuggingFace Hub - +- Machine Translate a database (HotpotQA, DB Pedia, FEVER) . Pick a database that is short, because translation might be slow. +Non priority tasks: +- Prepare databse and subnit it to HuggingFace Hub. +- Prepare a MTEB PR for the databse. Meeting 3.9: From 2e95faf73a96e61ae329318a0cbe434cf551e04f Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 3 Oct 2024 09:11:54 +0000 Subject: [PATCH 15/15] Update pages/students/2022/andrii_pervashov/README.md --- pages/students/2022/andrii_pervashov/README.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/pages/students/2022/andrii_pervashov/README.md b/pages/students/2022/andrii_pervashov/README.md index 501d9679e6..df4e3da676 100644 --- a/pages/students/2022/andrii_pervashov/README.md +++ b/pages/students/2022/andrii_pervashov/README.md @@ -22,6 +22,14 @@ Korekcia textu pomocou neurónových sietí - Aplikujte existujúci model na opravu textu vo vybraných úlohách. - Vyhodnnotte model pomocou overovacej množiny. +Stretnutie 3.10.2024 + +Stav: + +- Spustený skript WikiEdits bez úprav. Výsledkom bol (asi) dobrý súbor csv s úpravami v slovenskom jazyku. +- Vyskúšané dotrénovanie modelu mt5-base na tejto databáze. Trénovanie sa spustí. Po zatvorení tmux sa trénovanie nepodarí obnoviť. + + Online update 4.9.2024 Úlohy: