--- title: Tetiana Mohorian published: true taxonomy: category: [bp2025] tag: [rag,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2022 ## Bakalárska práca 2025 - Spolupráca [P. Pokrivčák](/students/2019/patrik_pokrivcak) - [Python](/topics/python) - [Hate Speech](/topics/hatespeech) Návrh na tému: Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov. - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. - Aplikujte existujúci model na úlohu detekcie nenávistnej reči. - Na adaptáciu použite "prompting" a "LORA". - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak). Stretnutie 12.11.2024 Stav: - Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky. - Na vyhodnotenie použitý svoj skript a framework llm-eval-harness. - Pokračuje písanie. Úlohy: - Pošlite mi draft BP na ďalšie stretnutie. - Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov. - Pokračujte v písaní. - Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT . - Napíšte ChatGPT prompt na detekciu nenávistnej reči. - Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab. Zásobník úloh: - Zistite čo je to PEFT a kvantizácia a ako sa to používa. - Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT. Stretnutie 18.10.2024 Stav: - Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita. - Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán. - Nainštalovaná OLLama, Transformers, vyskúšaný Mistral. - Urobené všetko. Úlohy: - Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar). - Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči. - Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1. - Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness. Zásobník úloh: - [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. - [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. Stretnutie 3.10.2024 Úlohy: - [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad. - [x] Prejdite si knihu Dive Deep into Python 3. - [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky. - [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky. - [x] Oboznámte sa s OPEN AI Python API. - [x] Nainštalujte si prostredie Anaconda. - [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica. - [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely Zásobník úloh: - [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)