zpwiki

History

dano 691d62f3ae Update pages/students/2022/tetiana_mohorian/README.md		2025-03-28 09:36:11 +00:00
..
README.md	Update pages/students/2022/tetiana_mohorian/README.md	2025-03-28 09:36:11 +00:00

title

published

taxonomy

Tetiana Mohorian

true

Bakalárska práca 2025

Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.

Zadanie:

Vypracujte prehľad veľkých jazykových modelov s podporou slovenčiny.
Vypracujte prehľad dostupných textových korpusov pre rozpoznávanie nenávistnej reči.
Vyberte model a metódu rozpoznávania nenávistnej reči. Vyhodnoťte presnosť rozpoznávania nenávistnej reči na vybranej množine.
Navrhnite zlepšenia vybranej metódy.

Návrh na tému:

Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými.
Aplikujte existujúci model na úlohu detekcie nenávistnej reči.
Na adaptáciu použite "prompting" a "LORA".
Vyhodnotte model pomocou overovacej množiny.

Stretnutie 28.3.

Stav:

Práca na stránke, frontend backend
Práca na Telegram bot, vyhodnotenie s priateľmi.
Few Shot Learning: 0.7 F1. Slovak T5-small model.
Práca na lm-eval-harness, zatiaľ sa to nepodarilo. Task zatiaľ nefunguje, framework funguje.
Pripravená aj TK Inter aplikácia.
Pripravte webovú aplikáciu na zverejnenie pomocou Docker.

Úlohy:

Zásobník úloh:

Stretnutie 13.2.2025

Stav:

Úlohy:

Pokračujte v písaní. Je potrebné zlepšiť jazyk, vyradiť príliš všeobecné časti, pridať odkazy na odbornú literatúru, zrozumiteľne opísať experimenty a výsledky.
Pripravte experiment s "few shot" a veľkým jazykovým modelom. Môžete použiť lm-eval-harness.
Skripty dajte na kemt git.

Zásobník úloh:

Stretnutie 12.11.2024

Stav:

Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky.
Na vyhodnotenie použitý svoj skript a framework llm-eval-harness.
Pokračuje písanie.

Úlohy:

Pošlite mi draft BP na ďalšie stretnutie.
Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov.
Pokračujte v písaní.
[-] Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT .
Napíšte ChatGPT prompt na detekciu nenávistnej reči.
Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab.

Zásobník úloh:

Stretnutie 18.10.2024

Stav:

Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.
Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.
Nainštalovaná OLLama, Transformers, vyskúšaný Mistral.
Urobené všetko.

Úlohy:

Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar).
Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči.
Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1.
Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.

Zásobník úloh:

Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.

Stretnutie 3.10.2024

Úlohy:

Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
Prejdite si knihu Dive Deep into Python 3.
Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
Oboznámte sa s OPEN AI Python API.
Nainštalujte si prostredie Anaconda.
Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely

Zásobník úloh: