dmytro_ushatenko/pages/students/2022/tetiana_mohorian/README.md

71 lines
2.6 KiB
Markdown
Raw Normal View History

2024-05-03 12:48:51 +00:00
---
title: Tetiana Mohorian
published: true
taxonomy:
category: [bp2025]
tag: [rag,nlp]
author: Daniel Hladek
---
rok začiatku štúdia: 2022
## Bakalárska práca 2025
2024-05-03 12:56:22 +00:00
- Spolupráca [P. Pokrivčák](/students/2019/patrik_pokrivcak)
- [Python](/topics/python)
- [Hate Speech](/topics/hatespeech)
2024-05-03 12:48:51 +00:00
Návrh na tému:
Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.
- Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými.
- Aplikujte existujúci model na úlohu detekcie nenávistnej reči.
- Na adaptáciu použite "prompting" a "LORA".
- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).
Stretnutie 18.10.2024
Stav:
- Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.
- Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.
- Nainštalovaná OLLama, Transformers, vyskúšaný Mistral.
- Urobené všetko.
Úlohy:
- Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar).
- Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči.
- Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1.
- Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.
2024-05-03 12:48:51 +00:00
Zásobník úloh:
- Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
- Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči.
- Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.
Stretnutie 3.10.2024
2024-05-03 12:48:51 +00:00
Úlohy:
- [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
- [x] Prejdite si knihu Dive Deep into Python 3.
- [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
- [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
- [x] Oboznámte sa s OPEN AI Python API.
- [x] Nainštalujte si prostredie Anaconda.
- [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
- [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely
Zásobník úloh:
- [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)
2024-05-03 12:48:51 +00:00