diff --git a/pages/students/2019/filip_tomas/README.md b/pages/students/2019/filip_tomas/README.md index e2c464a540..d13de8a566 100644 --- a/pages/students/2019/filip_tomas/README.md +++ b/pages/students/2019/filip_tomas/README.md @@ -28,6 +28,18 @@ Ciel: Spolupráca Michal Stromko, Kristián Sopkovič. +Stretnutie 15.10.2024 + +Stav: + +- Rozpísaná práca +- Príprava na nasadenie Milvus DB na RPI klaster. + +Úlohy: + +- Píšte prácu: Definuje úlohu. Napíšte súčasný stav. Predstavte naše riešenie. Vyhodnotte naše riešenie. Postupujte od všeobnecného ku konkrétnemu. +- Pokračujte v práci na HW a SW. + Stretnutie 27.9.2024 Stav: diff --git a/pages/students/2019/patrik_pokrivcak/README.md b/pages/students/2019/patrik_pokrivcak/README.md index c2d0451e49..8f7cd3f4e8 100644 --- a/pages/students/2019/patrik_pokrivcak/README.md +++ b/pages/students/2019/patrik_pokrivcak/README.md @@ -34,17 +34,39 @@ Súvisiaca téma: - [Hate Speech](/topics/hatespeech) - [Tetiana Mahorian](/students/2022/tetiana_mohorian) + +Stretnutie 15.10. + +Stav: + +- Staré poznámky. + +Úlohy: + +- Navrhnite prompt na klasifikáciu nenávistnej reči a vyhodnotte, aký presný je model na množine https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak. Vyskúšajte viac modelov. Vyskúšajte aj https://huggingface.co/slovak-nlp/mistral-sk-7b +- Pokračujte v písaní DP. Použite odkazy na odborné články, + +Zásobník úloh: + +- Dotrénujte model na klasifikáciu nenávistnej reči. +- Dotrénujte model na generovanie nenávistnej reči. +- Vyskúšajte SentenceTransformer (me5) na klasifikáciu. + + + +## Diplomový projekt 2024 + Stretnutie 10.5.2024 Stav: -- Poznámky o neurónových sieťach a rozbehané HF tarnsformers. +- Poznámky o neurónových sieťach a rozbehané HF transformers. - Práca s Kaggle. Úlohy: - Pokračovať v otvorených úlohách a štúdiu. -- Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr. +- [ ] Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr. - Prečítajte si niekoľko vedeckých článkov o klasifikácii HS, poznačte si ich informácie a urobte si poznámky. Na vyhľadanie článkov použite google scholar. Zásobník úloh: @@ -73,8 +95,8 @@ Stretnutie 15.2. Úlohy: - [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python. -- [-] Prečítajte si Dive into Python 3. -- [ ] Priečítajte si Dive into Deep learning. +- [x] Prečítajte si Dive into Python 3. +- [x] Priečítajte si Dive into Deep learning. - [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany. - [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany. diff --git a/pages/students/2020/david_kostilnik/README.md b/pages/students/2020/david_kostilnik/README.md index 77975a9fda..242cdc5ed2 100644 --- a/pages/students/2020/david_kostilnik/README.md +++ b/pages/students/2020/david_kostilnik/README.md @@ -18,12 +18,35 @@ Téma: Sémantické vyhľadávanie pomocou veľkých modelov - Tvorba datasetu prekladom, využitie existujúcich datasetov -- Dotrénovanie existujúceho modelu +- Dotrénovanie existujúceho modelu typu BERT pomocou preloženého MS MARCO. Ciele: - Zlepšiť RAG. + +Stretnutie 29.10.2024 + +Stav: + +- Prečítané nejaké články. Inak nič. + +Úlohy: + + +- Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady. +- Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco. +- Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké článkuý nájdete na Google Scholar. + +Zásobník úloh: + +- pracujte na servri quadro a prostredí Anaconda. +- Natrénujte slovenský BERT model na preloženej databáze MS MARCO (WIP K. Sopkovič). + + + +## Diplomový projekt 2024 + Stretnutie 4.4. 2024 Úlohy: @@ -45,5 +68,5 @@ Stretnutie 15.2.2024 Úlohy: - Oboznámte sa s prácou [K. Sopkovič](/students/2019/kristian_sopkovic) a [M. Stromko](/students/2019/michal_stromko). -- + diff --git a/pages/students/2020/pavol_hudak/README.md b/pages/students/2020/pavol_hudak/README.md index 580cb9fdb8..e78cd86c6c 100644 --- a/pages/students/2020/pavol_hudak/README.md +++ b/pages/students/2020/pavol_hudak/README.md @@ -13,8 +13,30 @@ rok začiatku štúdia: 2020 Ciel: -- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu. - Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku. +- Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset. +- Strjový preklad vybranej množiny instruct. + + + + +Stretnutie 15.10. + +Stav: + +- Napísané 4 strany poznámok o Transformers. + +Úlohy: + +- Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT. +- Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA. +Použite server quadro alebo Kaggle. +- Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články. + + + + +# Diplomový projekt 2024 Ciele na semester: @@ -32,6 +54,7 @@ Vybrať jednu z úloh: - Tvorba instruct datasetu - Anotácia alebo preklad množín - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT + Stretnutie 7.6.2024 Stav: diff --git a/pages/students/2022/oleh_poiasnik/README.md b/pages/students/2022/oleh_poiasnik/README.md index 04675c9230..f66ec0ef08 100644 --- a/pages/students/2022/oleh_poiasnik/README.md +++ b/pages/students/2022/oleh_poiasnik/README.md @@ -29,6 +29,31 @@ Vyhľadávanie právnych informácií pomocou neurónových sietí RAG: Generovanie jazyka s pomocou vyhľadávania - Retrieval augmented generation +17.10.20204 + +Stav: + +- Funguje web rozhranie aj vyhľadávanie. +- Kódy sú na gite. Využíva sa Flask, Mistral API pre Mistral-Small (nebeží lokálne). Na vektory MiniLM2 +- Napísané poznámky o praktickej časti. + + +Úlohy + +- Otázka: Je to hybridné vyhľadávanie? +- Začnite písať teoretickú časť práce. +- Pokračujte v práci na frontende aj backende, tak aby to dobre vyzeralo aj dobre fungovalo - aby sa to dalo použiť ako demo. Treba dávať pozor na právnu zodpovednosť. +- Vyskúšajte rôzne spôsoby vyhľadávania - aj sparse (riedke vyhľadávanie). +- Kódy dávajte na git. + +Zásobník úloh: + +- Pripravte modely na lokálne nasadenie pomocou inferenčného servra (vllm, ctranslate2). Chceme aby modely bežali cez (OpenAI) API na našej infraštruktúre. +- Vyskúšajte Váš systém s lepšími modelmi (Slovak Mistral, iný väčší model, na vektory me5 alebo slovakbert-mnlr). +- pripravte nasadenie aplikácie pomocou systému Docker Compose. +- Urobte číslelné vyhodnotenie vyhľadávania. Toto má na starosti Yevhenii Leonov. + + 27.9.2024 Stav: diff --git a/pages/students/2022/serhii_yemets/README.md b/pages/students/2022/serhii_yemets/README.md index d9a85f83eb..83c94a7ead 100644 --- a/pages/students/2022/serhii_yemets/README.md +++ b/pages/students/2022/serhii_yemets/README.md @@ -10,7 +10,8 @@ taxonomy: rok začiatku štúdia: 2022 -# Bakalárksa práca 2025 +# Bakalárska práca 2025 + Cieľ: @@ -22,14 +23,38 @@ Do budúcnosti: - Vypracovanie webového dema - Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty). +Stretnutie 30.10.2024 + +Stav: + +- Napísané texty o NE. +- Vyskúšané a naštudované veci podľa pokynov, +- Začiatok práce na webovom deme. Úlohy: -- Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu. -- Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda. -- Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel -- Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice. -- Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slvenský jazyk https://github.com/slovak-nlp/resources +- Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít. +- Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers. +- Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju? +- Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification + +Zásobník úloh: + +- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný. +- Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu. +- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom. +- Vykonané experimenty slovne opíšte a výslekdy zapíšte do tabuliek. Výsledky slovne okomentujte. + + +Stretnutie 20.5.20204 + +Úlohy: + +- [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu. +- [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda. +- [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel +- [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice. +- [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources Zásobník úloh: diff --git a/pages/students/2022/tetiana_mohorian/README.md b/pages/students/2022/tetiana_mohorian/README.md index c6537153a6..bb10c9f7f3 100644 --- a/pages/students/2022/tetiana_mohorian/README.md +++ b/pages/students/2022/tetiana_mohorian/README.md @@ -26,25 +26,45 @@ Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov. - Aplikujte existujúci model na úlohu detekcie nenávistnej reči. - Na adaptáciu použite "prompting" a "LORA". - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). -c + +Stretnutie 18.10.2024 + +Stav: + +- Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita. +- Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán. +- Nainštalovaná OLLama, Transformers, vyskúšaný Mistral. +- Urobené všetko. + +Úlohy: + +- Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar). +- Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči. +- Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1. +- Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness. + + +Zásobník úloh: + +- Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. +- Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. +- Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. Stretnutie 3.10.2024 - - Úlohy: -- Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad. -- Prejdite si knihu Dive Deep into Python 3. -- Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. -- Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky. -- Oboznámte sa s OPEN AI Python API. -- Nainštalujte si prostredie Anaconda. -- Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica. -- Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely +- [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad. +- [x] Prejdite si knihu Dive Deep into Python 3. +- [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. +- [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky. +- [x] Oboznámte sa s OPEN AI Python API. +- [x] Nainštalujte si prostredie Anaconda. +- [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica. +- [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely Zásobník úloh: -- Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/) +- [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/) diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 5b9d97afe2..286ab5a67d 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -7,7 +7,6 @@ taxonomy: author: Daniel Hladek --- - rok začiatku štúdia: 2022 # Bakalárska práca 2025 @@ -29,6 +28,27 @@ Ako na to: - Určite, ktorá otázka je dobre vygenerovaná a ktorá nie. Tu môžete použiť: systém pre vyhľadávanie alebo neurónovú sieť pre otázky a odpovede. Ku otázke viete nájsť odpovede pomocou neurónovej siete. Výstupom by mala byť čo najkvalitnejšia množina otázok a dpovedí ku odsekom. - Výstupom by mala byť umelo generovaná databáza otázok a odpovedí. +Stretnutie 18.10.2024 + +Stav: + +- Natrénovaný model SlovakT5 Base. Skripty sú na [GITe](https://git.kemt.fei.tuke.sk/vk202uf/bp2024). Trénovanie funguje. +- Naštudované články o T5 a Falcon, napísané poznámky. + +Úlohy: + +- Doplnte vyhodnotenie modelu pomocu BLEU Skore. Ako testovaciu množinu použite testovaciu časť SkQUAD. +- Natrénujte aj iné modely: mt5-base, SlavicT5-base, umt5-base. Opíšte testovací scenár - ako ste dotrénovali model . Vyhodnotte ich v tabuľke. Do práce napíšte o týchto modeloch. + +Zásobník úloh: + +- SKúste natrénovať aj modely typu GPT. Tam bude treba upraviť skript na model typu GPT - SlovakMistral 7B. Titeo modely sú veľké. Budete potrebovať prístup na školský server. Budete potrebovať použiť mnetódu: quantization (bitsandbytes) a peft (parameter efficient fine tuning). +- Ako bude model dobrý, tak ho uverejníme na repoztári Huggingface Hub. +- Ak bude práca dobrá, skúsime prepracovať a urobiť článok na konferencii. +- V spolupráci Y. Leonov urobiť vyhodnotenie aj v medicínskej doméne. +- Skúsíme poprosiť doktorov o názor. + + Stretnutie 27.9.2024 Stav: @@ -40,7 +60,7 @@ Stav: - Zistite ako sa dotrénujú generatívne modely HuggingFace. Zistite čo je to Few Shot learning a *urobte si poznámky*. - Prečítajte si článok o modele Falcon a napíšte ako funguje. Prečítajte si článok o modele T5 a napíšte ako funguje. -- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Falcon 7 B. +- Dotrénujte generatívny model na generovanie otázok podľa zadaného paragrafu. Na dotrénovanie použite databázu SK QUAD. Ako model použite Slovak T5 Base alebo Slovak Mistral 7 B. - Oboznámte sa s Hugggingface API a OpenAI API. Na generovanie môžete použiť aj toto api. - Skripty na dotrénovanie dávajte do GIT repozitára. @@ -48,7 +68,7 @@ Zásobník úloh: - Zoberte databázu liekov a generujte otázky o liekoch - od Ing. K. Sopkovič, alebo O. Poiasnik. - Možno bude treba použiť ChatGPT API a príklady z databázy SK QUAD. -- Možno bude treba dotrénovať Slovak Falcon 7B na inštrukcie. +- Možno bude treba dotrénovať Slovak Mistral 7B na inštrukcie. Staré Úlohy: diff --git a/pages/students/2022/yevhenii_leonov/README.md b/pages/students/2022/yevhenii_leonov/README.md index 063e2f4726..d215252b96 100644 --- a/pages/students/2022/yevhenii_leonov/README.md +++ b/pages/students/2022/yevhenii_leonov/README.md @@ -26,10 +26,30 @@ Predbežné zadanie: Návrh na tému: -- Vyhodnotenie systémov RAGi -- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. -- Napíšte príklady alebo použite generatívny modell +- Vyhodnotenie systémov RAG + +Spolupráca Oleh Poiasnik + +Stretnutie: + +Stav: + +- Urobené poznámky na tému RAG +- Nainštalované PrivateGPT, Ollama na Windowse + +Úlohy: + + +- Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. OPtimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia. - Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html +- Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky. +- Zistite a opíšte aké metriky sa používajú. + +Zásobník úloh: + +- Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. +- Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede. +- Napíšte príklady alebo použite generatívny model