105 lines
3.2 KiB
Markdown
105 lines
3.2 KiB
Markdown
---
|
|
title: Patrik Pokrivčák
|
|
published: true
|
|
taxonomy:
|
|
category: [dp2025]
|
|
tag: [nlp, hate]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
rok začiatku štúdia: 2019
|
|
|
|
# Diplomová práca
|
|
|
|
|
|
Téma:
|
|
|
|
Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov
|
|
|
|
Cieľe:
|
|
|
|
- Naučiť sa rozpoznávať nenávistnú reči HS pomocou LLM - lokálnych alebo komerčných.
|
|
- Zlepšiť chopnosti LLM pre rozpoznávanie HS - dotrénovaním alebo promptingom.
|
|
- Vytvoriť demo
|
|
- Výsledky prezentovať na konferencii - alebo článku.
|
|
|
|
Nápad:
|
|
|
|
- Generovanie nenávistnej reči pre účely trénovania.
|
|
- Rozpoznávanie HS pomocou embeding modelov, few shot alebo dotrénovanie.
|
|
|
|
Súvisiaca téma:
|
|
|
|
- [Python](/topics/python)
|
|
- [Hate Speech](/topics/hatespeech)
|
|
- [Tetiana Mahorian](/students/2022/tetiana_mohorian)
|
|
|
|
|
|
Stretnutie 15.10.
|
|
|
|
Stav:
|
|
|
|
- Staré poznámky.
|
|
|
|
Úlohy:
|
|
|
|
- Navrhnite prompt na klasifikáciu nenávistnej reči a vyhodnotte, aký presný je model na množine https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak. Vyskúšajte viac modelov. Vyskúšajte aj https://huggingface.co/slovak-nlp/mistral-sk-7b
|
|
- Pokračujte v písaní DP. Použite odkazy na odborné články,
|
|
|
|
Zásobník úloh:
|
|
|
|
- Dotrénujte model na klasifikáciu nenávistnej reči.
|
|
- Dotrénujte model na generovanie nenávistnej reči.
|
|
- Vyskúšajte SentenceTransformer (me5) na klasifikáciu.
|
|
|
|
|
|
|
|
## Diplomový projekt 2024
|
|
|
|
Stretnutie 10.5.2024
|
|
|
|
Stav:
|
|
|
|
- Poznámky o neurónových sieťach a rozbehané HF transformers.
|
|
- Práca s Kaggle.
|
|
|
|
Úlohy:
|
|
|
|
- Pokračovať v otvorených úlohách a štúdiu.
|
|
- [ ] Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr.
|
|
- Prečítajte si niekoľko vedeckých článkov o klasifikácii HS, poznačte si ich informácie a urobte si poznámky. Na vyhľadanie článkov použite google scholar.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Vyskúšajte Ollama a niekoľko jazykových modelov (LLAMA3, mistral, ) pre few-shot rozpoznávanie HS.
|
|
- Dotrénujte embedding model na HS detection
|
|
- Pripravte dáta na vyhodnotenie few shot klasifikácie.
|
|
|
|
|
|
Stretnutie 5.4.
|
|
|
|
Stav:
|
|
|
|
- Začiatok štúdia Python a LMM.
|
|
|
|
Úlohy:
|
|
|
|
- [x] Pokračujte v štúdiu neurónových sietí a klasifikácie nenávsistnej reči podľa otvorených úloh. Píšte si poznámky.
|
|
- [-] Zistite, ako pracuje model GPT. Zistite čo je to prompting. Navrhnite "prompt" pre ChatGPT ktorý by klasifikoval nenávistnú reč.
|
|
- [x] Oboznámte sa s knižnicou HF transformers. Nainštalujte si ju. Prejdite si jeden alebo 2 tutoriály.
|
|
- [ ] Zistite ako funguje "few shot" alebo "zero shot" learning s GPT modelom. Vyskúšajte si to z HF Transformers. napr. https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
|
|
|
|
Stretnutie 15.2.
|
|
|
|
|
|
Úlohy:
|
|
|
|
- [x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python.
|
|
- [x] Prečítajte si Dive into Python 3.
|
|
- [x] Priečítajte si Dive into Deep learning.
|
|
- [x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany.
|
|
- [-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany.
|
|
|
|
|
|
|