zpwiki/README.md at 50f42057434c2074694deecb6c5c1585d25f8bd6

KEMT/zpwiki

dano d7f39c528f Update pages/students/2022/tetiana_mohorian/README.md

2024-11-12 08:32:58 +00:00

title

published

taxonomy

Tetiana Mohorian

true

Bakalárska práca 2025

Návrh na tému:

Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.

Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými.
Aplikujte existujúci model na úlohu detekcie nenávistnej reči.
Na adaptáciu použite "prompting" a "LORA".
Vyhodnotte model pomocou overovacej množiny.

Stretnutie 12.11.2024

Stav:

Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky.
Na vyhodnotenie použitý svoj skript a framework llm-eval-harness.
Pokračuje písanie.

Úlohy:

Pošlite mi draft BP na ďalšie stretnutie.
Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov.
Pokračujte v písaní.
Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT .
Napíšte ChatGPT prompt na detekciu nenávistnej reči.
Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab.

Zásobník úloh:

Stretnutie 18.10.2024

Stav:

Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.
Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.
Nainštalovaná OLLama, Transformers, vyskúšaný Mistral.
Urobené všetko.

Úlohy:

Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar).
Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči.
Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1.
Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.

Zásobník úloh:

Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.

Stretnutie 3.10.2024

Úlohy:

Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
Prejdite si knihu Dive Deep into Python 3.
Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
Oboznámte sa s OPEN AI Python API.
Nainštalujte si prostredie Anaconda.
Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely

Zásobník úloh: