zpwiki/pages/students/2022/tetiana_mohorian
2025-01-23 12:02:03 +00:00
..
README.md Update pages/students/2022/tetiana_mohorian/README.md 2025-01-23 12:02:03 +00:00

title published taxonomy
Tetiana Mohorian true
category tag author
bp2025
rag
nlp
Daniel Hladek

rok začiatku štúdia: 2022

Bakalárska práca 2025

Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.

Zadanie:

  1. Vypracujte prehľad veľkých jazykových modelov s podporou slovenčimy.
  2. Vypracujte prehľad dostupných textových korpusov pre rozpoznávanie nenávistnej reči.
  3. Vyberte model a metódu rozpoznávania nenávistnej reči. Vyhodnoťte presnosť rozpoznávania nenávistnej reči na vybranej množine.
  4. Navrhnite zlepšenia vybranej metódy.

Návrh na tému:

  • Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými.
  • Aplikujte existujúci model na úlohu detekcie nenávistnej reči.
  • Na adaptáciu použite "prompting" a "LORA".
  • Vyhodnotte model pomocou overovacej množiny.

Stretnutie 12.11.2024

Stav:

  • Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky.
  • Na vyhodnotenie použitý svoj skript a framework llm-eval-harness.
  • Pokračuje písanie.

Úlohy:

  • Pošlite mi draft BP na ďalšie stretnutie.
  • Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov.
  • Pokračujte v písaní.
  • Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT .
  • Napíšte ChatGPT prompt na detekciu nenávistnej reči.
  • Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab.

Zásobník úloh:

  • Zistite čo je to PEFT a kvantizácia a ako sa to používa.
  • Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT.

Stretnutie 18.10.2024

Stav:

  • Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.
  • Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.
  • Nainštalovaná OLLama, Transformers, vyskúšaný Mistral.
  • Urobené všetko.

Úlohy:

  • Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar).
  • Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči.
  • Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1.
  • Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.

Zásobník úloh:

  • Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
  • Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.

Stretnutie 3.10.2024

Úlohy:

  • Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
  • Prejdite si knihu Dive Deep into Python 3.
  • Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
  • Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
  • Oboznámte sa s OPEN AI Python API.
  • Nainštalujte si prostredie Anaconda.
  • Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
  • Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely

Zásobník úloh:

  • Nainštalujte si knižnicu LangChain a pozrite si ako fungujú ChatModely