Přidat README.md

2025-05-20 11:37:56 +00:00 · 2025-05-20 11:37:56 +00:00 · f1960d2305
commit f1960d2305
parent 7000c721ee
1 changed files with 84 additions and 0 deletions
--- a/README.md
+++ b/README.md
@ -0,0 +1,84 @@
+# Systém na detekciu nenávistnej reči – Bakalársky projekt
+
+**Autor**: Tetiana Mohorian  
+**Škola**: Technická univerzita v Košiciach, FEI  
+**Vedúci práce**: doc. Ing. Daniel Hládek, PhD.  
+**Rok**: 2025
+
+---
+
+## 📌 Prehľad projektu
+
+Táto bakalárska práca predstavuje komplexný systém na detekciu nenávistnej reči v slovenčine pomocou veľkých jazykových modelov (LLM). Súčasťou riešenia sú:
+
+- 🧠 Jemne doladené modely SlovakT5 a mT5
+- 🤖 Telegram bot, ktorý moderuje skupinové konverzácie v reálnom čase
+- 🌐 Webová aplikácia s prehľadom klasifikácií a históriou
+- 🗃️ Integrácia databáz PostgreSQL a MySQL
+- 🐳 Nasadenie pomocou Docker a Kubernetes
+
+---
+
+## 📊 Výsledky modelov
+
+### Tab. 1 – Výsledky tréningu modelu pomocou few-shot learning
+
+| Modely             | Precision | Recall | F1 Score |
+|--------------------|-----------|--------|----------|
+| mT5-small          | 0.4923    | 0.6400 | 0.5662   |
+| mT5-base           | 0.4533    | 0.6800 | 0.5440   |
+| mT5-large          | 0.6473    | 0.5903 | 0.6188   |
+| **Slovak-T5-base** | **0.6689**| **0.6082** | **0.6386** |
+| Slovak-T5-small    | 0.6230    | 0.5748 | 0.5989   |
+
+---
+
+### Tab. 2 – Porovnanie modelu SlovakT5-base pred a po doladení LoRA
+
+| Model                 | Precision | Recall | F1 Score |
+|-----------------------|-----------|--------|----------|
+| Slovak-T5-base        | 0.6689    | 0.6082 | 0.6386   |
+| Slovak-T5-base (LoRA) | 0.7113    | 0.7859 | 0.7486   |
+
+---
+
+## ⚙️ Komponenty
+
+- **Telegram Bot**: Sleduje správy, detekuje nenávistný obsah a odstraňuje ich v reálnom čase.
+- **Webová Aplikácia**: Flask + React rozhranie zobrazujúce históriu detekcií.
+- **Modely**: SlovakT5, mT5 – doladené pomocou PEFT / LoRA.
+- **Databázy**: MySQL (bot), PostgreSQL (web).
+- **Nasadenie**: Kubernetes + Google Cloud Run.
+
+---
+
+## 📦 Nasadenie
+
+Všetky komponenty sú zabalené do Docker kontajnerov. Nasadenie prebieha pomocou Kubernetes (ConfigMap, Deployment, PVC, Secret).  
+Bot aj web bežia v rovnakom kontajneri v rámci namespace `botspace`.
+
+---
+
+## 🔐 Premenné prostredia (.env)
+
+| Premenná     | Popis                        |
+|--------------|------------------------------|
+| `TOKEN`      | Token Telegram bota          |
+| `DB_USER`    | Užívateľ MySQL               |
+| `DB_PASSWORD`| Heslo do MySQL               |
+| `DB_HOST`    | Host pre databázu            |
+| `DB_NAME`    | Názov databázy               |
+
+---
+
+## 📜 Poznámka
+
+Tento projekt vznikol ako súčasť bakalárskej práce a demonštruje použitie moderných NLP prístupov pre analýzu toxicity v reálnom čase. Kód a architektúra boli navrhnuté tak, aby boli modulárne, rozšíriteľné a pripravené na praktické použitie v reálnych systémoch.
+
+---
+
+## 📚 Dataset
+
+- **TUKE-KEMT/hate_speech_slovak**
+- Dve triedy: `0 = neutrálne`, `1 = nenávistné`
+- Využitý pre hodnotenie aj doladenie modelov