forked from KEMT/zpwiki
		
	
		
			
				
	
	
		
			112 lines
		
	
	
		
			3.7 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			112 lines
		
	
	
		
			3.7 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Patrik Pokrivčák
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [dp2025]
 | |
|     tag: [nlp, hate]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| rok začiatku štúdia: 2019
 | |
| 
 | |
| # Diplomová práca
 | |
| 
 | |
| 
 | |
| Téma:
 | |
| 
 | |
| Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov
 | |
| 
 | |
| Zadanie:
 | |
| 
 | |
| 1. Vypracujte prehľad veľkých jazykových modelov s podporou slovenčiny.
 | |
| 2. Vypracujte prehľad metód rozpoznávania nenávistnej reči pomocou veľkých jazykových modelov.
 | |
| 3. Vyberte vhodnú dátovú množinu pre rozpoznávanie nenávistnej reči  a pomocou nej vhodnou metrikou porovnajte viacero jazykových modelov pre úlohu rozpoznávania nenávistnej reči.
 | |
| 4. Vyhodnoťte experimenty a navrhnite zlepšenia rozpoznávania. 
 | |
| 
 | |
| Cieľe:
 | |
| 
 | |
| - Naučiť sa rozpoznávať nenávistnú reči HS pomocou LLM - lokálnych alebo komerčných.
 | |
| - Zlepšiť chopnosti LLM pre rozpoznávanie HS - dotrénovaním alebo promptingom.
 | |
| - Vytvoriť demo
 | |
| - Výsledky prezentovať na konferencii - alebo článku.
 | |
| 
 | |
| Nápad:
 | |
| 
 | |
| - Generovanie nenávistnej reči pre účely trénovania.
 | |
| - Rozpoznávanie HS pomocou embeding modelov, few shot alebo dotrénovanie.
 | |
| 
 | |
| Súvisiaca téma:
 | |
| 
 | |
| - [Python](/topics/python)
 | |
| - [Hate Speech](/topics/hatespeech)
 | |
| - [Tetiana Mahorian](/students/2022/tetiana_mohorian)
 | |
| 
 | |
| 
 | |
| Stretnutie 15.10.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Staré poznámky.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Navrhnite prompt na klasifikáciu nenávistnej reči a vyhodnotte, aký presný je model na množine https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak. Vyskúšajte viac modelov. Vyskúšajte aj https://huggingface.co/slovak-nlp/mistral-sk-7b
 | |
| - Pokračujte v písaní DP. Použite odkazy na odborné články,
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Dotrénujte model na klasifikáciu nenávistnej reči.
 | |
| - Dotrénujte model na generovanie  nenávistnej reči.
 | |
| - Vyskúšajte SentenceTransformer (me5) na klasifikáciu.
 | |
| 
 | |
| 
 | |
| 
 | |
| ## Diplomový projekt 2024
 | |
| 
 | |
| Stretnutie 10.5.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Poznámky o neurónových sieťach a rozbehané HF transformers.
 | |
| - Práca s Kaggle.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračovať v otvorených úlohách a štúdiu.
 | |
| - [ ] Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr.
 | |
| - Prečítajte si niekoľko vedeckých článkov o klasifikácii HS, poznačte si ich informácie a urobte si poznámky. Na vyhľadanie článkov použite google scholar.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Vyskúšajte Ollama a niekoľko jazykových modelov (LLAMA3, mistral, ) pre few-shot rozpoznávanie HS.
 | |
| - Dotrénujte embedding model na HS detection
 | |
| - Pripravte dáta na vyhodnotenie few shot klasifikácie.
 | |
| 
 | |
| 
 | |
| Stretnutie 5.4.
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Začiatok štúdia Python a LMM. 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [x] Pokračujte v štúdiu neurónových sietí a klasifikácie nenávsistnej reči podľa otvorených úloh. Píšte si poznámky.
 | |
| - [-] Zistite, ako pracuje model GPT. Zistite čo je to prompting.  Navrhnite "prompt" pre ChatGPT ktorý by klasifikoval nenávistnú reč.
 | |
| - [x] Oboznámte sa s knižnicou HF transformers. Nainštalujte si ju. Prejdite si jeden alebo 2 tutoriály.
 | |
| - [ ] Zistite ako funguje "few shot" alebo "zero shot" learning s GPT modelom. Vyskúšajte si to z HF Transformers. napr. https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
 | |
| 
 | |
| Stretnutie 15.2.
 | |
| 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python.
 | |
| - [x] Prečítajte si Dive into Python 3.
 | |
| - [x] Priečítajte si Dive into Deep learning.
 | |
| - [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany.
 | |
| - [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany.
 | |
| 
 | |
| 
 | |
| 
 |