forked from KEMT/zpwiki
93 lines
3.6 KiB
Markdown
93 lines
3.6 KiB
Markdown
---
|
|
title: Tetiana Mohorian
|
|
published: true
|
|
taxonomy:
|
|
category: [bp2025]
|
|
tag: [rag,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
|
|
rok začiatku štúdia: 2022
|
|
|
|
|
|
## Bakalárska práca 2025
|
|
|
|
- Spolupráca [P. Pokrivčák](/students/2019/patrik_pokrivcak)
|
|
- [Python](/topics/python)
|
|
- [Hate Speech](/topics/hatespeech)
|
|
|
|
|
|
Návrh na tému:
|
|
|
|
Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.
|
|
|
|
- Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými.
|
|
- Aplikujte existujúci model na úlohu detekcie nenávistnej reči.
|
|
- Na adaptáciu použite "prompting" a "LORA".
|
|
- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).
|
|
|
|
Stretnutie 12.11.2024
|
|
|
|
Stav:
|
|
|
|
- Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky.
|
|
- Na vyhodnotenie použitý svoj skript a framework llm-eval-harness.
|
|
- Pokračuje písanie.
|
|
|
|
Úlohy:
|
|
|
|
- Pošlite mi draft BP na ďalšie stretnutie.
|
|
- Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov.
|
|
- Pokračujte v písaní.
|
|
- Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT .
|
|
- Napíšte ChatGPT prompt na detekciu nenávistnej reči.
|
|
- Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab.
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
- Zistite čo je to PEFT a kvantizácia a ako sa to používa.
|
|
- Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT.
|
|
|
|
Stretnutie 18.10.2024
|
|
|
|
Stav:
|
|
|
|
- Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.
|
|
- Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.
|
|
- Nainštalovaná OLLama, Transformers, vyskúšaný Mistral.
|
|
- Urobené všetko.
|
|
|
|
Úlohy:
|
|
|
|
- Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar).
|
|
- Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči.
|
|
- Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1.
|
|
- Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.
|
|
|
|
|
|
Zásobník úloh:
|
|
|
|
- [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
|
|
- [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.
|
|
|
|
Stretnutie 3.10.2024
|
|
|
|
|
|
Úlohy:
|
|
|
|
- [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
|
|
- [x] Prejdite si knihu Dive Deep into Python 3.
|
|
- [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
|
|
- [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
|
|
- [x] Oboznámte sa s OPEN AI Python API.
|
|
- [x] Nainštalujte si prostredie Anaconda.
|
|
- [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
|
|
- [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely
|
|
|
|
Zásobník úloh:
|
|
|
|
- [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)
|
|
|