--- title: Patrik Pokrivčák published: true taxonomy: category: [dp2025] tag: [nlp, hate] author: Daniel Hladek --- rok začiatku štúdia: 2019 # Diplomová práca Téma: Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov Cieľe: - Naučiť sa rozpoznávať nenávistnú reči HS pomocou LLM - lokálnych alebo komerčných. - Zlepšiť chopnosti LLM pre rozpoznávanie HS - dotrénovaním alebo promptingom. - Vytvoriť demo - Výsledky prezentovať na konferencii - alebo článku. Nápad: - Generovanie nenávistnej reči pre účely trénovania. - Rozpoznávanie HS pomocou embeding modelov, few shot alebo dotrénovanie. Súvisiaca téma: - [Python](/topics/python) - [Hate Speech](/topics/hatespeech) - [Tetiana Mahorian](/students/2022/tetiana_mohorian) Stretnutie 15.10. Stav: - Staré poznámky. Úlohy: - Navrhnite prompt na klasifikáciu nenávistnej reči a vyhodnotte, aký presný je model na množine https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak. Vyskúšajte viac modelov. Vyskúšajte aj https://huggingface.co/slovak-nlp/mistral-sk-7b - Pokračujte v písaní DP. Použite odkazy na odborné články, Zásobník úloh: - Dotrénujte model na klasifikáciu nenávistnej reči. - Dotrénujte model na generovanie nenávistnej reči. - Vyskúšajte SentenceTransformer (me5) na klasifikáciu. ## Diplomový projekt 2024 Stretnutie 10.5.2024 Stav: - Poznámky o neurónových sieťach a rozbehané HF transformers. - Práca s Kaggle. Úlohy: - Pokračovať v otvorených úlohách a štúdiu. - [ ] Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr. - Prečítajte si niekoľko vedeckých článkov o klasifikácii HS, poznačte si ich informácie a urobte si poznámky. Na vyhľadanie článkov použite google scholar. Zásobník úloh: - Vyskúšajte Ollama a niekoľko jazykových modelov (LLAMA3, mistral, ) pre few-shot rozpoznávanie HS. - Dotrénujte embedding model na HS detection - Pripravte dáta na vyhodnotenie few shot klasifikácie. Stretnutie 5.4. Stav: - Začiatok štúdia Python a LMM. Úlohy: - [x] Pokračujte v štúdiu neurónových sietí a klasifikácie nenávsistnej reči podľa otvorených úloh. Píšte si poznámky. - [-] Zistite, ako pracuje model GPT. Zistite čo je to prompting. Navrhnite "prompt" pre ChatGPT ktorý by klasifikoval nenávistnú reč. - [x] Oboznámte sa s knižnicou HF transformers. Nainštalujte si ju. Prejdite si jeden alebo 2 tutoriály. - [ ] Zistite ako funguje "few shot" alebo "zero shot" learning s GPT modelom. Vyskúšajte si to z HF Transformers. napr. https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api Stretnutie 15.2. Úlohy: - [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python. - [x] Prečítajte si Dive into Python 3. - [x] Priečítajte si Dive into Deep learning. - [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany. - [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany.