forked from KEMT/zpwiki
		
	Merge branch 'master' of git.kemt.fei.tuke.sk:KEMT/zpwiki
This commit is contained in:
		
						commit
						8fcff43616
					
				| @ -28,15 +28,29 @@ Súvisiaca téma: | ||||
| - [Python](/topics/python) | ||||
| - [Hate Speech](/topics/hatespeech) | ||||
| 
 | ||||
| Stretnutie 5.4. | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Začiatok štúdia Python a LMM.  | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pokračujte v štúdiu neurónových sietí a klasifikácie nenávsistnej reči podľa otvorených úloh. Píšte si poznámky. | ||||
| - Zistite, ako pracuje model GPT. Zistite čo je to prompting.  Navrhnite "prompt" pre ChatGPT ktorý by klasifikoval nenávistnú reč. | ||||
| - Oboznámte sa s knižnicou HF transformers. Nainštalujte si ju. Prejdite si jeden alebo 2 tutoriály. | ||||
| - Zistite ako funguje "few shot" alebo "zero shot" learning s GPT modelom. Vyskúšajte si to z HF Transformers. napr. https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api | ||||
| 
 | ||||
| Stretnutie 15.2. | ||||
| 
 | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python. | ||||
| - Prečítajte si Dive into Python 3. | ||||
| - Priečítajte si Dive into Deep learning. | ||||
| - Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany. | ||||
| - Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany. | ||||
| - [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python. | ||||
| - [-] Prečítajte si Dive into Python 3. | ||||
| - [ ] Priečítajte si Dive into Deep learning. | ||||
| - [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany. | ||||
| - [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany. | ||||
| 
 | ||||
| 
 | ||||
| 
 | ||||
|  | ||||
| @ -24,6 +24,21 @@ Ciele: | ||||
| 
 | ||||
| - Zlepšiť RAG. | ||||
| 
 | ||||
| Stretnutie 4.4. 2024 | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Oboznámte sa s tým, ako funguje neurónová sieť typu Transformer. Urobte si poznámky. Poznačete si zdroje, uprednostnite vedecké články. | ||||
| - Oboznámte sa ako funguje rekurentná neurónová sieť. Sústreďte sa na typ RWKV. Urobte si poznmámy. | ||||
| - Vyskúšajte si túto NN. Začnite tu https://wiki.rwkv.com/basic/play.html | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Oboznámte sa ako funguje NN Mamba. | ||||
| - Zostavte RAG systém s pomocou RWKV.   | ||||
| - Oboznámte sa ako funguje Sentence Transformer. | ||||
| - Porovnajte embeddingy RWKV s inými metódami (Sentence Transformers) | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 15.2.2024 | ||||
| 
 | ||||
|  | ||||
| @ -13,13 +13,45 @@ rok začiatku štúdia: 2020 | ||||
| 
 | ||||
| Ciel: | ||||
| 
 | ||||
| Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu. | ||||
| - Vylepšiť slovenský veľký jazykový model. Vylepšiť RAG - retrieval augmented generation pre slovenčinu. | ||||
| - Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku. | ||||
| 
 | ||||
| Ciele na semester: | ||||
| 
 | ||||
| - Zobrať veľký jazykový model (základný alebo instruct alebo chat).  | ||||
| - Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka. | ||||
| - Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model. | ||||
| - Vyhodnotiť presnosť QA dotrénovaného modelu. | ||||
| 
 | ||||
| Ďalšie nápady: | ||||
| 
 | ||||
| - Automaticky zlepšiť "prompt" pre QA. | ||||
| 
 | ||||
| Vybrať jednu z úloh: | ||||
| 
 | ||||
| - Tvorba instruct datasetu - Anotácia alebo preklad množín | ||||
| - Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT | ||||
| - Rozpoznávanie nenávistnej reči (pomocou LLM?, prompting, finetuning) | ||||
| 
 | ||||
| Stretnutie 5.4. | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Nainštalované PrivateGPT.  | ||||
| - Nainštalovaná Anaconda a Python, aj štúdium a príprava. | ||||
| - Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model. | ||||
| - Vyskúšajte modely cez ollama. | ||||
| - Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup. | ||||
| - Kandidáti sú UMT5, TinyLLama, LLama, Mistral, Phi alebo iné. | ||||
| - Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania).  | ||||
| - Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT. | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Strojovo preložiť databázu OpenORCA.  | ||||
| 
 | ||||
| Stretnutie 23.2. | ||||
| 
 | ||||
|  | ||||
| @ -36,6 +36,26 @@ Predbežné úlohy: | ||||
| - Vytvorte webové demo. | ||||
| - Napísať vedecký článok z BP | ||||
|   | ||||
| 
 | ||||
| Stretnutie 12.4. | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Vyskúšaná LLAMA2 cez HF AutoTrain  (SlovakAlpaca+). Je náročná na RAM. Zatiaľ to vyzerá horšie ako LLAMA1. | ||||
| - Práca na texte. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Vyskúšajte model Gemma. Vyskúšajte model RWKV (tento nie je Trannsformer, je to RNN) s množinou SlovakAlpaca. Výsledky experimentov (BLEU alebo ROUGE) dajte do tabuľky. | ||||
| - Pokračujte v písaní práce. Opíšte experimenty. Opíšte aj dataset ktorý používate.  V teroetickej časti opíšte metódy neurónových sietí aj úlohu ktorú riešime. Ako súvisí s konverzáciou.  | ||||
| - Pokračujte v otvorených úlohách: Zdrojáky dajte na git, dáta na školský server. | ||||
| 
 | ||||
| 
 | ||||
| Zásobník úloh: | ||||
| 
 | ||||
| - Ako zlepšíme veľké jazykové modely pre slovenčinu? | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 8.3. | ||||
| 
 | ||||
| Stav: | ||||
|  | ||||
| @ -13,10 +13,13 @@ rok začiatku štúdia: 2022 | ||||
| # Bakalárska práca 2025 | ||||
| 
 | ||||
| 
 | ||||
| POdrobná téma zatiaľ nie je dohodnutá.  | ||||
| Podrobná téma zatiaľ nie je dohodnutá.  | ||||
| 
 | ||||
| 
 | ||||
| Cieľ je vylepšiť proces  RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation | ||||
| 
 | ||||
|    | ||||
| - Možno pomocou vytvorenia-prekladu vlastnej trénovacej databázy. | ||||
| - Alebo zber trénovacích dát z webového korpusu. | ||||
| 
 | ||||
| Úlohy na semester - "nepovinné, oficiálne sa to začne na zimný semester 2024" | ||||
| 
 | ||||
|  | ||||
| @ -24,12 +24,25 @@ RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation | ||||
| - Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli. | ||||
| - Nainštalujte si a vyskúšajte softvér PrivateGPT | ||||
| 
 | ||||
| Stretnutie 12.4. | ||||
| 
 | ||||
| Stav: | ||||
| 
 | ||||
| - Učenie sa Pythonu, nainštalovaná Anaconda. | ||||
| - Urobené stručné poznámky o RAG o BERT a  o GPT. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Pokračujte v otvorených úlohách. | ||||
| - Vyskúšajte systém OLLAMA. Keď to nejde na Windows, vyskúšajte Ubuntu WSL(2).  | ||||
| - Pracujte na "článku". | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 22.3. | ||||
| 
 | ||||
| Úlohy: | ||||
| 
 | ||||
| - Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3. | ||||
| - Nainštalujte si PrivateGPT. Zistite ako  funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou  SentenceTranformers. Napíšte o tom poznámky. | ||||
| - Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. | ||||
| - [-] Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3. | ||||
| - [-] Nainštalujte si PrivateGPT. Zistite ako  funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou  SentenceTranformers. Napíšte o tom poznámky. | ||||
| - [-] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. | ||||
| 
 | ||||
|  | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user