zpwiki

History

dano d5888fd98f Update 'pages/students/2021/vladimir_ferko/README.md'		2023-10-13 07:32:27 +00:00
..
README.md	Update 'pages/students/2021/vladimir_ferko/README.md'	2023-10-13 07:32:27 +00:00

title

published

taxonomy

Vladimír Ferko

true

Bakalárska práca 2024

Názov: Anotácia a vyhodnotenie slovenskej databázy nenávistnej reči

Predbežné zadanie - úlohy na semester:

Vytvoriť slovenskú databázu diskusií. Databáza by mala byť prezentovateľná na konferencii a použiteľná pre rozpoznávanie nenávistnej reči.
zobrazte štatistiky získaných dát.
Anotovať sentiment diskusných príspevkov.
Možno anotovať nenávistnú reč. Toto konzultovať s p. Sokolovou.
Z nazbieraných dát zostavte a vyhodnoťte model

Stretnutie 13.10.2023

Stav:

Úlohy:

Vykonať prieskum literatúry. Aké sú existujúce anglické a slovenské databázy na analýzu sentimentu? Ako sa klasifikuje sentiment pomocou neurónových sietí? Prieskum by mal mať niekoľko strán a mal by obsahovať odkazy na odbornú literatúru a iné zdroje. https://github.com/slovak-nlp/resources Tu pozrite zoznam modelov a datasetov pre sentiment. Nájdite aj niekoľko článkov na tému "crowdsourcing dataset for sentiment classification". Robte si písomné poznámky, použije sa to do BP.
Vytvorte KEMT GIT repo. Nastavte tam synchronizáciu s KPI Git tak aby som mal prístup k zdrojovým kódom na stiahnutie a na tvorbu modelov.
Preštudujte si zdrojové kódy https://github.com/hladek/hate-annot a skúste ich rozbehať na svojom počítači s Vašimi dátami.

Zásobník úloh:

Stretnutie 8.8.

Stav:

Úlohy:

Rozbehajte u seba jednoduché anotácie pomocou Prodigy. V texte označujte časti, ktoré sú urážlivé. Môžete to urobiť podľa skritpov v https://git.kemt.fei.tuke.sk/dano/annotation . Dáta anotujete podobne ako "named entities".

Zásobník úloh:

Stretnutie 29.6.2023

Stav:

Je hotový skript pre zber diskusií z Facebooku. Skript je Python, Selenium a BS4.

Úlohy:

Vykonať prieskum literatúry. Aké sú existujúce anglické a slovenské databázy na analýzu sentimentu? Ako sa klasifikuje sentiment pomocou neurónových sietí? Prieskum by mal mať niekoľko strán a mal by obsahovať odkazy na odbornú literatúru a iné zdroje. https://github.com/slovak-nlp/resources Tu pozrite zoznam modelov a datasetov pre sentiment.
Skript na stiahnutie s krátkym komentárom dajte na KEMT GIT. Repo nazvite BP2024
Vyskúšajte rozpoznávanie sentimentu pre slovenčinu pomocou existujúceho modelu Huggingface Transformers. https://huggingface.co/kinit/slovakbert-sentiment-twitter Vyskúšajte tento model.
V prípade potreby Vám viem prideliť prístup na školský server s GPU.