153 lines
		
	
	
		
			5.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
			
		
		
	
	
			153 lines
		
	
	
		
			5.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| ---
 | |
| title: Tetiana Mohorian
 | |
| published: true
 | |
| taxonomy:
 | |
|     category: [bp2025]
 | |
|     tag: [rag,nlp]
 | |
|     author: Daniel Hladek
 | |
| ---
 | |
| 
 | |
| 
 | |
| rok začiatku štúdia: 2022
 | |
| 
 | |
| 
 | |
| ## Bakalárska práca 2025
 | |
| 
 | |
| - Spolupráca [P. Pokrivčák](/students/2019/patrik_pokrivcak)
 | |
| - [Python](/topics/python)
 | |
| - [Hate Speech](/topics/hatespeech)
 | |
| 
 | |
| 
 | |
| Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.
 | |
| 
 | |
| Zadanie:
 | |
| 
 | |
| 1. Vypracujte prehľad veľkých jazykových modelov s podporou slovenčiny.
 | |
| 2. Vypracujte prehľad dostupných textových korpusov pre rozpoznávanie nenávistnej reči.
 | |
| 3. Vyberte  model a metódu rozpoznávania nenávistnej reči. Vyhodnoťte presnosť rozpoznávania nenávistnej reči na vybranej množine.
 | |
| 4. Navrhnite zlepšenia vybranej metódy.
 | |
| 
 | |
| 
 | |
| Návrh na tému:
 | |
| 
 | |
| 
 | |
| - Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými.
 | |
| - Aplikujte existujúci model na úlohu detekcie nenávistnej reči. 
 | |
| - Na adaptáciu použite "prompting" a "LORA".
 | |
| - Vyhodnotte model pomocou [overovacej množiny](https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak).
 | |
| 
 | |
| Stretnutie 28.3.
 | |
| 
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Práca na stránke, frontend backend
 | |
| - Práca na Telegram bot, vyhodnotenie s priateľmi.
 | |
| - Few Shot Learning: 0.7 F1. Slovak T5-small model. 
 | |
| - Práca na lm-eval-harness, zatiaľ sa to nepodarilo. Task zatiaľ nefunguje, framework funguje.
 | |
| - Pripravená aj TK Inter aplikácia.
 | |
| - Pripravte webovú aplikáciu na zverejnenie pomocou Docker.
 | |
| 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Vedúci môže pomôcť s Task na LM E H - pripomente mi to ďalší týždeň.
 | |
| - Využite iný model. Napr. Slovak T5 large alebo base. Alebo Slovak MIstral.
 | |
| - Updatujte kódy na GITE. 
 | |
| - Do práce môžete dať screenshoty z Vašej aplikácie
 | |
| 
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Zverejnite Vašu aplikáciu  napr. pomocou TUKE Cloud.
 | |
| 
 | |
| 
 | |
| 
 | |
| 
 | |
| 
 | |
| Stretnutie 13.2.2025
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Dotrénovaný t5 small na HS
 | |
| - Vyhodnotené viaceré modely pre úlohu detekcie HS
 | |
| - Navrhnutý prompt.
 | |
| - Práca web. deme. Funguje frontend (react), zatiaľ nefunguje backend (django).
 | |
| - Práca na telegram bote - upozornenie diskutujúcich na "nevhodné" výrazy. 
 | |
| - Práca na texte. 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračujte v písaní. Je potrebné zlepšiť jazyk, vyradiť príliš všeobecné časti, pridať odkazy na odbornú literatúru, zrozumiteľne opísať experimenty a výsledky.
 | |
| - Pripravte experiment s "few shot" a veľkým jazykovým modelom. Môžete použiť lm-eval-harness.
 | |
| - Skripty dajte na kemt git.
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - Pripravte DEMO s pomocou Docker.
 | |
| 
 | |
| 
 | |
| Stretnutie 12.11.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky.
 | |
| - Na vyhodnotenie použitý svoj skript a framework llm-eval-harness.
 | |
| - Pokračuje písanie.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [x] Pošlite mi draft BP na ďalšie stretnutie.
 | |
| - [x] Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov.
 | |
| - [x] Pokračujte v písaní.
 | |
| - [-] Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT .
 | |
| - [x] Napíšte ChatGPT prompt na detekciu nenávistnej reči. 
 | |
| - Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab.
 | |
| 
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - [x] Zistite čo je to PEFT a kvantizácia a ako sa to používa. 
 | |
| - [x] Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT.
 | |
| 
 | |
| Stretnutie 18.10.2024
 | |
| 
 | |
| Stav:
 | |
| 
 | |
| - Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.  
 | |
| - Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.
 | |
| - Nainštalovaná OLLama, Transformers, vyskúšaný Mistral. 
 | |
| - Urobené všetko.
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar). 
 | |
| - Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči. 
 | |
| - Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári.  Na vyhodnotenie použite metriku Precision-Recall-F1.
 | |
| - Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.
 | |
| 
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu. 
 | |
| - [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie. 
 | |
| 
 | |
| Stretnutie 3.10.2024
 | |
| 
 | |
| 
 | |
| Úlohy:
 | |
| 
 | |
| - [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
 | |
| - [x] Prejdite si knihu Dive Deep into Python 3.
 | |
| - [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.	
 | |
| - [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
 | |
| - [x] Oboznámte sa s OPEN AI Python API.
 | |
| - [x] Nainštalujte si prostredie Anaconda. 
 | |
| - [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
 | |
| - [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely
 | |
| 
 | |
| Zásobník úloh:
 | |
| 
 | |
| - [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú [ChatModely](https://python.langchain.com/docs/modules/model_io/chat/)
 | |
| 
 |