diff --git a/pages/interns/oliver_pejic/README.md b/pages/interns/oliver_pejic/README.md index 9b4097a8..8abf07c3 100644 --- a/pages/interns/oliver_pejic/README.md +++ b/pages/interns/oliver_pejic/README.md @@ -23,6 +23,24 @@ Final Tasks: - [Machine translate](https://huggingface.co/google/madlad400-3b-mt) an SBERT evaluation set for multiple slavic languages. - Write a short scientific paper with results. +Meeting 3.10.: + +State: + +- Prepared a pull request for Retrieval SK Quad. +- Prepared a pull request for Hate Speech Slovak. + +Tasks: + +- Make the pull request compatible with the MTEB Contribution guidelines. Discuss it when it is done. +- Submit pull requests to MTEB project. +- Machine Translate a database (HotpotQA, DB Pedia, FEVER) . Pick a database that is short, because translation might be slow. + +Non priority tasks: + +- Prepare databse and subnit it to HuggingFace Hub. +- Prepare a MTEB PR for the databse. + Meeting 3.9: State: Studied MTEB framework and transformers. diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index 29649e24..e2c464a5 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -28,6 +28,21 @@ Ciel: Spolupráca Michal Stromko, Kristián Sopkovič. +Stretnutie 27.9.2024 + +Stav: + +- Urobené vyhľadávanie Milvus, odstavce sú v sqlite. +- Indexovanie je v osobitnom skripte. +- Urobené web rozhranie pomocou Flask. + +Úlohy: + +- Na indexovanie používajte server quadro - 4 GPU karty 1080 12GB RAM. Prístup dá vedúci. Skript upravte tak, aby používal všetky 4 karty. Urobte meranie o koľko sa zrýchlylo spracovanie. Prihlásite sa ccez SSH `filip@quadro.kemt.fei.tuke.sk` . Server je dostupn7 iba cez VPN. Vytvoríte si prostredie Anaconda. Dlhý skript pustíte pomocou screen alebo tmux. +- Na RPI klaster k8s urobte paralelný deployment Milvus a mongodb aj webové rozhranie. +- Pokračujte v štúdiu LangChain. +- Pokračujte v písaní - sentence transformers, retrieval augmented generation, distributed database. + Stretnutie 23.7.2024 Stav: diff --git a/pages/students/2022/andrii_pervashov/README.md b/pages/students/2022/andrii_pervashov/README.md index 501d9679..df4e3da6 100644 --- a/pages/students/2022/andrii_pervashov/README.md +++ b/pages/students/2022/andrii_pervashov/README.md @@ -22,6 +22,14 @@ Korekcia textu pomocou neurónových sietí - Aplikujte existujúci model na opravu textu vo vybraných úlohách. - Vyhodnnotte model pomocou overovacej množiny. +Stretnutie 3.10.2024 + +Stav: + +- Spustený skript WikiEdits bez úprav. Výsledkom bol (asi) dobrý súbor csv s úpravami v slovenskom jazyku. +- Vyskúšané dotrénovanie modelu mt5-base na tejto databáze. Trénovanie sa spustí. Po zatvorení tmux sa trénovanie nepodarí obnoviť. + + Online update 4.9.2024 Úlohy: diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index ab49b0f1..04675c92 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -12,6 +12,13 @@ rok začiatku štúdia: 2022 # Bakalárska práca 2025 +Nové zadanie: + +Chceme vytvoriť asistenta pre farmaceuta alebo zákazníka lekárne pre vyhľadávanie v príbalových letákoch. + + +Staré zadanie: + Vyhľadávanie právnych informácií pomocou neurónových sietí - Oboznámte sa s existujúcimi modelmi pre vyhľadávanie v texte. @@ -20,8 +27,55 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí - Vyhodnotte či je zadané tvrdenie v súlade s legislatívou alebo nie. -RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation +RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation +27.9.2024 + +Stav: + +- Vyskúšané generatívne modely - OpenAI aj HuggingFace Prakticky sú nepoužiteľné, kvôli tomu, že chybné požiadavky míňajú kredit. Kreditu je málo na deň. +- Výskúšaný Slovenský Mistral "slovak-nlp/mistral-sk-7b". Výskúšané cez API skript. +- Nainštalovaný PrivateGPT. Zaindexovaná databáza liekov cez ElasticSearch a implementovaný RAG s modelom Slovak Mistral. Funguje to celkom dobre na dopyt o bolesti hlavy. + +Úlohy: + +- Pokračujte v štúdiu LangChain. Prejdite si tutoriály. +- Čítajte články a robte si poznámky. Pozrite si článok o modeli Mistral, o sentence transformeroch, aj o "retrieval augmented generation". Na vyhľadanie článku použite google scholar. +- Vytvorte skript pre indexovanie a prípravu dát, dajte ho na git. +- Konfiguračné skripty na Privategpt a skripty pre prípravu dát dajte na git repozitár. Na kemt.git.fei.tuke.sk. Skripty by mali byť opakovateľné. + + +Zásobník úloh: + +- Lepšie pripraviť dáta. Bude treba vyradiť lieky pre zvieratá. Texty bude treba predpripraviť. O lieku bude treba zistiť metainformácie. Bude treba vyznačiť, či je liek na lekársky predpis alebo nie. +- Model bude treba dotrénovať na inštrukcie, použiť databázu Slovak Alpaca. +- Pripraviť "inteligentného agenta" pre vyhľadávanie, aby sa vedel spýtať dolnňujúce otázky. Prečítajte si článok o ReACT. +- Pripraviť vlastné webové rozhranie a backend LangChain. + + + +Stretnutie 18.9.2024 + +Stav: + +- Vyskúšaný model bioBERT, cez Transformers, Anaconda na malom datasete na notebooku +- ElasticSearch Python API +- vlastný skript na indexovanie pomocou SBERT + +Úlohy: + +- vhodné modely pre slovenský jazyk: me5-base pre vektorové vyhľadávanie. Ale ako použijete ES, tak nie je potrebný. Pre generovanie: je možné použiť OpenAI API alebo HuggingfaceAPI, má obmedzenie. Otvorené modely: LLama3, RWKV, Sovenský Mistral 7B TBA. +- Na začiatok skúste rozbehať postup s PrivateGPT, OpenAI API a vyhľadávaním (pomocou ES alebo me5-base alebo OpenAI API - ADA embedding). +- Urobte si lokálnu inštaláciu PrivateGPT na Vašom notebooku. Zmente konfiguráciu - modely a prompty +- Dáta dodá Kristián Sopkovič - cez Teams sa spojte. +- Pokračujte v štúdiu Python, Transformers. Oboznámte sa s LangChain. +- Prečítajte si tento článok https://arxiv.org/abs/1908.10084 o sentence transformers a urobte si poznámky. + +Zásobník úloh: + +- Urobte množinu na vyhdnotenie. Vytvoríte množinu vzorových otázok a odpovedí. Vyhodnotte celý proces. +- Modely by mali bežať na našej infraštruktúre. Treba pripravť vhodný inferenčný server na našom HW, vybrať a dotrénovať vhodný model. +- Preskúmať využitie Knowledge Graph pre spracovanie medicínskych dát. Stretnutie 26.4.2024 diff --git a/pages/students/2022/tetiana_mohorian/README.md b/pages/students/2022/tetiana_mohorian/README.md index c30e6d26..c6537153 100644 --- a/pages/students/2022/tetiana_mohorian/README.md +++ b/pages/students/2022/tetiana_mohorian/README.md @@ -25,17 +25,26 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov. - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. - Aplikujte existujúci model na úlohu detekcie nenávistnej reči. - Na adaptáciu použite "prompting" a "LORA". -- Vyhodnotte model pomocou overovacej množiny. +- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). +c + +Stretnutie 3.10.2024 + + Úlohy: - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad. -- Nainštalujte si prostredie Anaconda. - Prejdite si knihu Dive Deep into Python 3. - Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. - Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky. +- Oboznámte sa s OPEN AI Python API. +- Nainštalujte si prostredie Anaconda. - Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica. - Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely + +Zásobník úloh: + - Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 060790b8..5b9d97af 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -20,8 +20,8 @@ Cieľ je vylepšiť slovenský model pre generovanie vektrovej reprezentácie. v Nové nápady: - Vytvorte systém pre generovanie otázok o zadanom texte. -- Vytvorte umelo generovanú množinu otázok a odpovedí. -- Pomocou umelej množiny zlepšite existujúci systém pre otázky a odpovede. +- Vytvorte umelo generovanú množinu otázok a odpovedí o liekoch. +- Pomocou umelej množiny zlepšite existujúci systém pre otázky a odpovede o liekoch. Ako na to: @@ -29,8 +29,29 @@ Ako na to: - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom. - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. +Stretnutie 27.9.2024 + +Stav: + +- Prezereté repozitáre a články. Napísané poznámky. +- Vytvorený prázdny git repozitár. + Úlohy: +- Zistite ako sa dotrénujú generatívne modely HuggingFace. Zistite čo je to Few Shot learning a *urobte si poznámky*. +- Prečítajte si článok o modele Falcon a napíšte ako funguje. Prečítajte si článok o modele T5 a napíšte ako funguje. +- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Falcon 7 B. +- Oboznámte sa s Hugggingface API a OpenAI API. Na generovanie môžete použiť aj toto api. +- Skripty na dotrénovanie dávajte do GIT repozitára. + +Zásobník úloh: + +- Zoberte databázu liekov a generujte otázky o liekoch - od Ing. K. Sopkovič, alebo O. Poiasnik. +- Možno bude treba použiť ChatGPT API a príklady z databázy SK QUAD. +- Možno bude treba dotrénovať Slovak Falcon 7B na inštrukcie. + +Staré Úlohy: + - Zistite, aké sú možné prístupy ku generovaniu otázok pomocou generatívneho modelu a aké sú možné prístupy k overeniu vygenerovanej otázky. - Pozrite si repozitár https://github.com/patil-suraj/question_generation - Pozrite si repozitár https://github.com/gauthierdmn/question_generation