65 lines
2.3 KiB
Markdown
65 lines
2.3 KiB
Markdown
---
|
|
title: Vladimír Ferko
|
|
published: true
|
|
taxonomy:
|
|
category: [bp2024]
|
|
tag: [dialog,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
rok začiatku štúdia: 2021
|
|
|
|
študent KPI, pracovník DTSS
|
|
|
|
## Bakalárska práca 2024
|
|
|
|
- [Projekt HateSpeech](/topics/hatespeech)
|
|
- [Pokyny KPI ku záverečným prácam](https://kpi.fei.tuke.sk/sk/zaverecne-prace)
|
|
- Spolupráca: [Eduard Matovka](/students/2021/eduard_matovka)
|
|
- Nadväzuje [Martin Jancura](/students/2017/martin_jancura)
|
|
|
|
Názov: Anotácia a vyhodnotenie slovenskej databázy nenávistnej reči
|
|
|
|
Predbežné zadanie - úlohy na semester:
|
|
|
|
- Vytvoriť slovenskú databázu diskusií. Databáza by mala byť prezentovateľná na konferencii a použiteľná pre rozpoznávanie nenávistnej reči.
|
|
- zobrazte štatistiky získaných dát.
|
|
- Anotovať sentiment diskusných príspevkov.
|
|
- Možno anotovať nenávistnú reč. Toto konzultovať s p. Sokolovou.
|
|
- Z nazbieraných dát zostavte a vyhodnoťte model
|
|
|
|
Stretnutie 8.8.
|
|
|
|
Stav:
|
|
|
|
- vypracovaný skript pre získanie dát z Reditt
|
|
|
|
Úlohy:
|
|
|
|
|
|
- Rozbehajte u seba jednoduché anotácie pomocou Prodigy. V texte označujte časti, ktoré sú urážlivé. Môžete to urobiť podľa skritpov v https://git.kemt.fei.tuke.sk/dano/annotation . Dáta anotujete podobne ako "named entities".
|
|
|
|
Zásobník úloh:
|
|
|
|
- Finalizovať dátovú množinu (facebook alebo reddit) a anotačnú schému.
|
|
- Pripraviť návod pre anotátorov
|
|
- Pripraviť webovú appku na slodevanie anotácií.
|
|
- Natrénovať model.
|
|
|
|
Stretnutie 29.6.2023
|
|
|
|
Stav:
|
|
|
|
- Je hotový skript pre zber diskusií z Facebooku. Skript je Python, Selenium a BS4.
|
|
|
|
Úlohy:
|
|
|
|
- [ ] Vykonať prieskum literatúry. Aké sú existujúce anglické a slovenské databázy na analýzu sentimentu? Ako sa klasifikuje sentiment pomocou neurónových sietí? Prieskum by mal mať niekoľko strán a mal by obsahovať odkazy na odbornú literatúru a iné zdroje. https://github.com/slovak-nlp/resources Tu pozrite zoznam modelov a datasetov pre sentiment.
|
|
- [ ] Skript na stiahnutie s krátkym komentárom dajte na KEMT GIT. Repo nazvite BP2024
|
|
- [ ] Vyskúšajte rozpoznávanie sentimentu pre slovenčinu pomocou existujúceho modelu Huggingface Transformers. https://huggingface.co/kinit/slovakbert-sentiment-twitter Vyskúšajte tento model.
|
|
- V prípade potreby Vám viem prideliť prístup na školský server s GPU.
|
|
|
|
|
|
|
|
|