Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki
This commit is contained in:
commit
8fcff43616
@ -28,15 +28,29 @@ Súvisiaca téma:
|
||||
- [Python](/topics/python)
|
||||
- [Hate Speech](/topics/hatespeech)
|
||||
|
||||
Stretnutie 5.4.
|
||||
|
||||
Stav:
|
||||
|
||||
- Začiatok štúdia Python a LMM.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračujte v štúdiu neurónových sietí a klasifikácie nenávsistnej reči podľa otvorených úloh. Píšte si poznámky.
|
||||
- Zistite, ako pracuje model GPT. Zistite čo je to prompting. Navrhnite "prompt" pre ChatGPT ktorý by klasifikoval nenávistnú reč.
|
||||
- Oboznámte sa s knižnicou HF transformers. Nainštalujte si ju. Prejdite si jeden alebo 2 tutoriály.
|
||||
- Zistite ako funguje "few shot" alebo "zero shot" learning s GPT modelom. Vyskúšajte si to z HF Transformers. napr. https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
|
||||
|
||||
Stretnutie 15.2.
|
||||
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python.
|
||||
- Prečítajte si Dive into Python 3.
|
||||
- Priečítajte si Dive into Deep learning.
|
||||
- Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany.
|
||||
- Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany.
|
||||
- [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python.
|
||||
- [-] Prečítajte si Dive into Python 3.
|
||||
- [ ] Priečítajte si Dive into Deep learning.
|
||||
- [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany.
|
||||
- [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany.
|
||||
|
||||
|
||||
|
||||
|
@ -24,6 +24,21 @@ Ciele:
|
||||
|
||||
- Zlepšiť RAG.
|
||||
|
||||
Stretnutie 4.4. 2024
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Oboznámte sa s tým, ako funguje neurónová sieť typu Transformer. Urobte si poznámky. Poznačete si zdroje, uprednostnite vedecké články.
|
||||
- Oboznámte sa ako funguje rekurentná neurónová sieť. Sústreďte sa na typ RWKV. Urobte si poznmámy.
|
||||
- Vyskúšajte si túto NN. Začnite tu https://wiki.rwkv.com/basic/play.html
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Oboznámte sa ako funguje NN Mamba.
|
||||
- Zostavte RAG systém s pomocou RWKV.
|
||||
- Oboznámte sa ako funguje Sentence Transformer.
|
||||
- Porovnajte embeddingy RWKV s inými metódami (Sentence Transformers)
|
||||
|
||||
|
||||
Stretnutie 15.2.2024
|
||||
|
||||
|
@ -13,13 +13,45 @@ rok začiatku štúdia: 2020
|
||||
|
||||
Ciel:
|
||||
|
||||
Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu.
|
||||
- Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu.
|
||||
- Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
|
||||
|
||||
Ciele na semester:
|
||||
|
||||
- Zobrať veľký jazykový model (základný alebo instruct alebo chat).
|
||||
- Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
|
||||
- Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
|
||||
- Vyhodnotiť presnosť QA dotrénovaného modelu.
|
||||
|
||||
Ďalšie nápady:
|
||||
|
||||
- Automaticky zlepšiť "prompt" pre QA.
|
||||
|
||||
Vybrať jednu z úloh:
|
||||
|
||||
- Tvorba instruct datasetu - Anotácia alebo preklad množín
|
||||
- Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT
|
||||
- Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning)
|
||||
|
||||
Stretnutie 5.4.
|
||||
|
||||
Stav:
|
||||
|
||||
- Nainštalované PrivateGPT.
|
||||
- Nainštalovaná Anaconda a Python, aj štúdium a príprava.
|
||||
- Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
|
||||
- Vyskúšajte modely cez ollama.
|
||||
- Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup.
|
||||
- Kandidáti sú UMT5, TinyLLama, LLama, Mistral, Phi alebo iné.
|
||||
- Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania).
|
||||
- Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT.
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Strojovo preložiť databázu OpenORCA.
|
||||
|
||||
Stretnutie 23.2.
|
||||
|
||||
|
@ -36,6 +36,26 @@ Predbežné úlohy:
|
||||
- Vytvorte webové demo.
|
||||
- Napísať vedecký článok z BP
|
||||
|
||||
|
||||
Stretnutie 12.4.
|
||||
|
||||
Stav:
|
||||
|
||||
- Vyskúšaná LLAMA2 cez HF AutoTrain (SlovakAlpaca+). Je náročná na RAM. Zatiaľ to vyzerá horšie ako LLAMA1.
|
||||
- Práca na texte.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Vyskúšajte model Gemma. Vyskúšajte model RWKV (tento nie je Trannsformer, je to RNN) s množinou SlovakAlpaca. Výsledky experimentov (BLEU alebo ROUGE) dajte do tabuľky.
|
||||
- Pokračujte v písaní práce. Opíšte experimenty. Opíšte aj dataset ktorý používate. V teroetickej časti opíšte metódy neurónových sietí aj úlohu ktorú riešime. Ako súvisí s konverzáciou.
|
||||
- Pokračujte v otvorených úlohách: Zdrojáky dajte na git, dáta na školský server.
|
||||
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Ako zlepšíme veľké jazykové modely pre slovenčinu?
|
||||
|
||||
|
||||
Stretnutie 8.3.
|
||||
|
||||
Stav:
|
||||
|
@ -13,10 +13,13 @@ rok začiatku štúdia: 2022
|
||||
# Bakalárska práca 2025
|
||||
|
||||
|
||||
POdrobná téma zatiaľ nie je dohodnutá.
|
||||
Podrobná téma zatiaľ nie je dohodnutá.
|
||||
|
||||
|
||||
Cieľ je vylepšiť proces RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation
|
||||
|
||||
- Možno pomocou vytvorenia-prekladu vlastnej trénovacej databázy.
|
||||
- Alebo zber trénovacích dát z webového korpusu.
|
||||
|
||||
Úlohy na semester - "nepovinné, oficiálne sa to začne na zimný semester 2024"
|
||||
|
||||
|
@ -24,12 +24,25 @@ RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation
|
||||
- Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli.
|
||||
- Nainštalujte si a vyskúšajte softvér PrivateGPT
|
||||
|
||||
Stretnutie 12.4.
|
||||
|
||||
Stav:
|
||||
|
||||
- Učenie sa Pythonu, nainštalovaná Anaconda.
|
||||
- Urobené stručné poznámky o RAG o BERT a o GPT.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pokračujte v otvorených úlohách.
|
||||
- Vyskúšajte systém OLLAMA. Keď to nejde na Windows, vyskúšajte Ubuntu WSL(2).
|
||||
- Pracujte na "článku".
|
||||
|
||||
|
||||
Stretnutie 22.3.
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3.
|
||||
- Nainštalujte si PrivateGPT. Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky.
|
||||
- Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
|
||||
- [-] Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3.
|
||||
- [-] Nainštalujte si PrivateGPT. Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky.
|
||||
- [-] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user