Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki

This commit is contained in:
Dnaiel Hladek 2024-04-26 12:04:42 +02:00
commit 8fcff43616
6 changed files with 109 additions and 12 deletions

View File

@ -28,15 +28,29 @@ Súvisiaca téma:
- [Python](/topics/python) - [Python](/topics/python)
- [Hate Speech](/topics/hatespeech) - [Hate Speech](/topics/hatespeech)
Stretnutie 5.4.
Stav:
- Začiatok štúdia Python a LMM.
Úlohy:
- Pokračujte v štúdiu neurónových sietí a klasifikácie nenávsistnej reči podľa otvorených úloh. Píšte si poznámky.
- Zistite, ako pracuje model GPT. Zistite čo je to prompting. Navrhnite "prompt" pre ChatGPT ktorý by klasifikoval nenávistnú reč.
- Oboznámte sa s knižnicou HF transformers. Nainštalujte si ju. Prejdite si jeden alebo 2 tutoriály.
- Zistite ako funguje "few shot" alebo "zero shot" learning s GPT modelom. Vyskúšajte si to z HF Transformers. napr. https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
Stretnutie 15.2. Stretnutie 15.2.
Úlohy: Úlohy:
- Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python. - [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python.
- Prečítajte si Dive into Python 3. - [-] Prečítajte si Dive into Python 3.
- Priečítajte si Dive into Deep learning. - [ ] Priečítajte si Dive into Deep learning.
- Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany. - [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany.
- Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany. - [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany.

View File

@ -24,6 +24,21 @@ Ciele:
- Zlepšiť RAG. - Zlepšiť RAG.
Stretnutie 4.4. 2024
Úlohy:
- Oboznámte sa s tým, ako funguje neurónová sieť typu Transformer. Urobte si poznámky. Poznačete si zdroje, uprednostnite vedecké články.
- Oboznámte sa ako funguje rekurentná neurónová sieť. Sústreďte sa na typ RWKV. Urobte si poznmámy.
- Vyskúšajte si túto NN. Začnite tu https://wiki.rwkv.com/basic/play.html
Zásobník úloh:
- Oboznámte sa ako funguje NN Mamba.
- Zostavte RAG systém s pomocou RWKV.
- Oboznámte sa ako funguje Sentence Transformer.
- Porovnajte embeddingy RWKV s inými metódami (Sentence Transformers)
Stretnutie 15.2.2024 Stretnutie 15.2.2024

View File

@ -13,13 +13,45 @@ rok začiatku štúdia: 2020
Ciel: Ciel:
Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu. - Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu.
- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
Ciele na semester:
- Zobrať veľký jazykový model (základný alebo instruct alebo chat).
- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
- Vyhodnotiť presnosť QA dotrénovaného modelu.
Ďalšie nápady:
- Automaticky zlepšiť "prompt" pre QA.
Vybrať jednu z úloh: Vybrať jednu z úloh:
- Tvorba instruct datasetu - Anotácia alebo preklad množín - Tvorba instruct datasetu - Anotácia alebo preklad množín
- Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
- Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning)
Stretnutie 5.4.
Stav:
- Nainštalované PrivateGPT.
- Nainštalovaná Anaconda a Python, aj štúdium a príprava.
- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.
Úlohy:
- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
- Vyskúšajte modely cez ollama.
- Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup.
- Kandidáti sú UMT5, TinyLLama, LLama, Mistral, Phi alebo iné.
- Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania).
- Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT.
Zásobník úloh:
- Strojovo preložiť databázu OpenORCA.
Stretnutie 23.2. Stretnutie 23.2.

View File

@ -36,6 +36,26 @@ Predbežné úlohy:
- Vytvorte webové demo. - Vytvorte webové demo.
- Napísať vedecký článok z BP - Napísať vedecký článok z BP
Stretnutie 12.4.
Stav:
- Vyskúšaná LLAMA2 cez HF AutoTrain (SlovakAlpaca+). Je náročná na RAM. Zatiaľ to vyzerá horšie ako LLAMA1.
- Práca na texte.
Úlohy:
- Vyskúšajte model Gemma. Vyskúšajte model RWKV (tento nie je Trannsformer, je to RNN) s množinou SlovakAlpaca. Výsledky experimentov (BLEU alebo ROUGE) dajte do tabuľky.
- Pokračujte v písaní práce. Opíšte experimenty. Opíšte aj dataset ktorý používate. V teroetickej časti opíšte metódy neurónových sietí aj úlohu ktorú riešime. Ako súvisí s konverzáciou.
- Pokračujte v otvorených úlohách: Zdrojáky dajte na git, dáta na školský server.
Zásobník úloh:
- Ako zlepšíme veľké jazykové modely pre slovenčinu?
Stretnutie 8.3. Stretnutie 8.3.
Stav: Stav:

View File

@ -13,10 +13,13 @@ rok začiatku štúdia: 2022
# Bakalárska práca 2025 # Bakalárska práca 2025
POdrobná téma zatiaľ nie je dohodnutá. Podrobná téma zatiaľ nie je dohodnutá.
Cieľ je vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation Cieľ je vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation
- Možno pomocou vytvorenia-prekladu vlastnej trénovacej databázy.
- Alebo zber trénovacích dát z webového korpusu.
Úlohy na semester - "nepovinné, oficiálne sa to začne na zimný semester 2024" Úlohy na semester - "nepovinné, oficiálne sa to začne na zimný semester 2024"

View File

@ -24,12 +24,25 @@ RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation
- Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli. - Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli.
- Nainštalujte si a vyskúšajte softvér PrivateGPT - Nainštalujte si a vyskúšajte softvér PrivateGPT
Stretnutie 12.4.
Stav:
- Učenie sa Pythonu, nainštalovaná Anaconda.
- Urobené stručné poznámky o RAG o BERT a o GPT.
Úlohy:
- Pokračujte v otvorených úlohách.
- Vyskúšajte systém OLLAMA. Keď to nejde na Windows, vyskúšajte Ubuntu WSL(2).
- Pracujte na "článku".
Stretnutie 22.3. Stretnutie 22.3.
Úlohy: Úlohy:
- Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3. - [-] Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3.
- Nainštalujte si PrivateGPT. Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky. - [-] Nainštalujte si PrivateGPT. Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky.
- Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. - [-] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.