zpwiki/pages/students/2022/tetiana_mohorian/README.md

---
title: Tetiana Mohorian
published: true
taxonomy:
    category: [bp2025]
    tag: [rag,nlp]
    author: Daniel Hladek
---


rok začiatku štúdia: 2022


## Bakalárska práca 2025

- Spolupráca [P. Pokrivčák](/students/2019/patrik_pokrivcak)
- [Python](/topics/python)
- [Hate Speech](/topics/hatespeech)


Návrh na tému:

Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.

- Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými.
- Aplikujte existujúci model na úlohu detekcie nenávistnej reči. 
- Na adaptáciu použite "prompting" a "LORA".
- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).

Stretnutie 12.11.2024

Stav:

- Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky.
- Na vyhodnotenie použitý svoj skript a framework llm-eval-harness.
- Pokračuje písanie.

Úlohy:

- Pošlite mi draft BP na ďalšie stretnutie.
- Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov.
- Pokračujte v písaní.
- Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT .
- Napíšte ChatGPT prompt na detekciu nenávistnej reči. 
- Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab.


Zásobník úloh:

- Zistite čo je to PEFT a kvantizácia a ako sa to používa. 
- Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT.

Stretnutie 18.10.2024

Stav:

- Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.  
- Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.
- Nainštalovaná OLLama, Transformers, vyskúšaný Mistral. 
- Urobené všetko.

Úlohy:

- Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar). 
- Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči. 
- Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári.  Na vyhodnotenie použite metriku Precision-Recall-F1.
- Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.


Zásobník úloh:

- [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. 
- [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. 

Stretnutie 3.10.2024


Úlohy:

- [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
- [x] Prejdite si knihu Dive Deep into Python 3.
- [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.	
- [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
- [x] Oboznámte sa s OPEN AI Python API.
- [x] Nainštalujte si prostredie Anaconda. 
- [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
- [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely

Zásobník úloh:

- [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)
zz 2024-05-03 12:48:51 +00:00			`---`
			`title: Tetiana Mohorian`
			`published: true`
			`taxonomy:`
			`category: [bp2025]`
			`tag: [rag,nlp]`
			`author: Daniel Hladek`
			`---`


			`rok začiatku štúdia: 2022`


			`## Bakalárska práca 2025`

zz 2024-05-03 12:56:22 +00:00			`- Spolupráca [P. Pokrivčák](/students/2019/patrik_pokrivcak)`
			`- [Python](/topics/python)`
			`- [Hate Speech](/topics/hatespeech)`

zz 2024-05-03 12:48:51 +00:00
			`Návrh na tému:`

			`Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.`

			`- Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými.`
			`- Aplikujte existujúci model na úlohu detekcie nenávistnej reči.`
			`- Na adaptáciu použite "prompting" a "LORA".`
Update pages/students/2022/tetiana_mohorian/README.md 2024-10-03 07:26:15 +00:00			`- Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).`

Update pages/students/2022/tetiana_mohorian/README.md 2024-11-12 08:32:58 +00:00			`Stretnutie 12.11.2024`

			`Stav:`

			`- Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky.`
			`- Na vyhodnotenie použitý svoj skript a framework llm-eval-harness.`
			`- Pokračuje písanie.`

			`Úlohy:`

			`- Pošlite mi draft BP na ďalšie stretnutie.`
			`- Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov.`
			`- Pokračujte v písaní.`
			`- Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT .`
			`- Napíšte ChatGPT prompt na detekciu nenávistnej reči.`
			`- Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab.`


			`Zásobník úloh:`

			`- Zistite čo je to PEFT a kvantizácia a ako sa to používa.`
			`- Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT.`

Update pages/students/2022/tetiana_mohorian/README.md 2024-10-18 09:33:42 +00:00			`Stretnutie 18.10.2024`

			`Stav:`

			`- Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.`
			`- Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.`
			`- Nainštalovaná OLLama, Transformers, vyskúšaný Mistral.`
			`- Urobené všetko.`

			`Úlohy:`
Update pages/students/2022/tetiana_mohorian/README.md 2024-10-03 07:26:15 +00:00
Update pages/students/2022/tetiana_mohorian/README.md 2024-10-18 09:33:42 +00:00			`- Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar).`
			`- Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči.`
			`- Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1.`
			`- Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.`
Update pages/students/2022/tetiana_mohorian/README.md 2024-10-03 07:26:15 +00:00
zz 2024-05-03 12:48:51 +00:00
Update pages/students/2022/tetiana_mohorian/README.md 2024-10-18 09:33:42 +00:00			`Zásobník úloh:`

Update pages/students/2022/tetiana_mohorian/README.md 2024-11-12 08:32:58 +00:00			`- [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.`
			`- [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.`
Update pages/students/2022/tetiana_mohorian/README.md 2024-10-18 09:33:42 +00:00
			`Stretnutie 3.10.2024`

zz 2024-05-03 12:48:51 +00:00
			`Úlohy:`

Update pages/students/2022/tetiana_mohorian/README.md 2024-10-18 09:33:42 +00:00			`- [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.`
			`- [x] Prejdite si knihu Dive Deep into Python 3.`
			`- [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.`
			`- [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.`
			`- [x] Oboznámte sa s OPEN AI Python API.`
			`- [x] Nainštalujte si prostredie Anaconda.`
			`- [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.`
			`- [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely`
Update pages/students/2022/tetiana_mohorian/README.md 2024-10-03 07:26:15 +00:00
			`Zásobník úloh:`

Update pages/students/2022/tetiana_mohorian/README.md 2024-10-18 09:33:42 +00:00			`- [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)`
zz 2024-05-03 12:48:51 +00:00