diff --git a/pages/students/2019/patrik_pokrivcak/README.md b/pages/students/2019/patrik_pokrivcak/README.md index 0397eb37..6fc8f6d6 100644 --- a/pages/students/2019/patrik_pokrivcak/README.md +++ b/pages/students/2019/patrik_pokrivcak/README.md @@ -28,15 +28,29 @@ Súvisiaca téma: - [Python](/topics/python) - [Hate Speech](/topics/hatespeech) +Stretnutie 5.4. + +Stav: + +- Začiatok štúdia Python a LMM. + +Úlohy: + +- Pokračujte v štúdiu neurónových sietí a klasifikácie nenávsistnej reči podľa otvorených úloh. Píšte si poznámky. +- Zistite, ako pracuje model GPT. Zistite čo je to prompting. Navrhnite "prompt" pre ChatGPT ktorý by klasifikoval nenávistnú reč. +- Oboznámte sa s knižnicou HF transformers. Nainštalujte si ju. Prejdite si jeden alebo 2 tutoriály. +- Zistite ako funguje "few shot" alebo "zero shot" learning s GPT modelom. Vyskúšajte si to z HF Transformers. napr. https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api + Stretnutie 15.2. Úlohy: -- Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python. -- Prečítajte si Dive into Python 3. -- Priečítajte si Dive into Deep learning. -- Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany. -- Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany. +- [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python. +- [-] Prečítajte si Dive into Python 3. +- [ ] Priečítajte si Dive into Deep learning. +- [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany. +- [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany. + diff --git a/pages/students/2020/david_kostilnik/README.md b/pages/students/2020/david_kostilnik/README.md index dae1b39d..77975a9f 100644 --- a/pages/students/2020/david_kostilnik/README.md +++ b/pages/students/2020/david_kostilnik/README.md @@ -24,6 +24,21 @@ Ciele: - Zlepšiť RAG. +Stretnutie 4.4. 2024 + +Úlohy: + +- Oboznámte sa s tým, ako funguje neurónová sieť typu Transformer. Urobte si poznámky. Poznačete si zdroje, uprednostnite vedecké články. +- Oboznámte sa ako funguje rekurentná neurónová sieť. Sústreďte sa na typ RWKV. Urobte si poznmámy. +- Vyskúšajte si túto NN. Začnite tu https://wiki.rwkv.com/basic/play.html + +Zásobník úloh: + +- Oboznámte sa ako funguje NN Mamba. +- Zostavte RAG systém s pomocou RWKV. +- Oboznámte sa ako funguje Sentence Transformer. +- Porovnajte embeddingy RWKV s inými metódami (Sentence Transformers) + Stretnutie 15.2.2024 diff --git a/pages/students/2020/pavol_hudak/README.md b/pages/students/2020/pavol_hudak/README.md index 1ff03336..926713b2 100644 --- a/pages/students/2020/pavol_hudak/README.md +++ b/pages/students/2020/pavol_hudak/README.md @@ -13,13 +13,45 @@ rok začiatku štúdia: 2020 Ciel: -Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu. +- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu. +- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku. + +Ciele na semester: + +- Zobrať veľký jazykový model (základný alebo instruct alebo chat). +- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka. +- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model. +- Vyhodnotiť presnosť QA dotrénovaného modelu. + +Ďalšie nápady: + +- Automaticky zlepšiť "prompt" pre QA. Vybrať jednu z úloh: - Tvorba instruct datasetu - Anotácia alebo preklad množín - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT -- Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning) + +Stretnutie 5.4. + +Stav: + +- Nainštalované PrivateGPT. +- Nainštalovaná Anaconda a Python, aj štúdium a príprava. +- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT. + +Úlohy: + +- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model. +- Vyskúšajte modely cez ollama. +- Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup. +- Kandidáti sú UMT5, TinyLLama, LLama, Mistral, Phi alebo iné. +- Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania). +- Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT. + +Zásobník úloh: + +- Strojovo preložiť databázu OpenORCA. Stretnutie 23.2. diff --git a/pages/students/2021/eduard_matovka/README.md b/pages/students/2021/eduard_matovka/README.md index 88bfd82b..27dbb4d1 100644 --- a/pages/students/2021/eduard_matovka/README.md +++ b/pages/students/2021/eduard_matovka/README.md @@ -36,6 +36,26 @@ Predbežné úlohy: - Vytvorte webové demo. - Napísať vedecký článok z BP + +Stretnutie 12.4. + +Stav: + +- Vyskúšaná LLAMA2 cez HF AutoTrain (SlovakAlpaca+). Je náročná na RAM. Zatiaľ to vyzerá horšie ako LLAMA1. +- Práca na texte. + +Úlohy: + +- Vyskúšajte model Gemma. Vyskúšajte model RWKV (tento nie je Trannsformer, je to RNN) s množinou SlovakAlpaca. Výsledky experimentov (BLEU alebo ROUGE) dajte do tabuľky. +- Pokračujte v písaní práce. Opíšte experimenty. Opíšte aj dataset ktorý používate. V teroetickej časti opíšte metódy neurónových sietí aj úlohu ktorú riešime. Ako súvisí s konverzáciou. +- Pokračujte v otvorených úlohách: Zdrojáky dajte na git, dáta na školský server. + + +Zásobník úloh: + +- Ako zlepšíme veľké jazykové modely pre slovenčinu? + + Stretnutie 8.3. Stav: diff --git a/pages/students/2022/valerii_kutsenko/README.md b/pages/students/2022/valerii_kutsenko/README.md index 8b099f6c..f1567ca5 100644 --- a/pages/students/2022/valerii_kutsenko/README.md +++ b/pages/students/2022/valerii_kutsenko/README.md @@ -13,10 +13,13 @@ rok začiatku štúdia: 2022 # Bakalárska práca 2025 -POdrobná téma zatiaľ nie je dohodnutá. +Podrobná téma zatiaľ nie je dohodnutá. + Cieľ je vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation - + +- Možno pomocou vytvorenia-prekladu vlastnej trénovacej databázy. +- Alebo zber trénovacích dát z webového korpusu. Úlohy na semester - "nepovinné, oficiálne sa to začne na zimný semester 2024" diff --git a/pages/students/2022/yevhenii_leonov/README.md b/pages/students/2022/yevhenii_leonov/README.md index 0aed29da..551f45a1 100644 --- a/pages/students/2022/yevhenii_leonov/README.md +++ b/pages/students/2022/yevhenii_leonov/README.md @@ -24,12 +24,25 @@ RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation - Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli. - Nainštalujte si a vyskúšajte softvér PrivateGPT +Stretnutie 12.4. + +Stav: + +- Učenie sa Pythonu, nainštalovaná Anaconda. +- Urobené stručné poznámky o RAG o BERT a o GPT. + +Úlohy: + +- Pokračujte v otvorených úlohách. +- Vyskúšajte systém OLLAMA. Keď to nejde na Windows, vyskúšajte Ubuntu WSL(2). +- Pracujte na "článku". + Stretnutie 22.3. Úlohy: -- Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3. -- Nainštalujte si PrivateGPT. Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky. -- Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. +- [-] Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3. +- [-] Nainštalujte si PrivateGPT. Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky. +- [-] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.