zpwiki/pages/students/2021/vladimir_ferko/README.md

2.0 KiB

title published taxonomy
Vladimír Ferko true
category tag author
bp2024
dialog
nlp
Daniel Hladek

rok začiatku štúdia: 2021

študent KPI, pracovník DTSS

Bakalárska práca 2024

Názov: Anotácia a vyhodnotenie slovenskej databázy nenávistnej reči

Predbežné zadanie - úlohy na semester:

  • Vytvoriť slovenskú databázu diskusií. Databáza by mala byť prezentovateľná na konferencii a použiteľná pre rozpoznávanie nenávistnej reči.
  • zobrazte štatistiky získaných dát.
  • Anotovať sentiment diskusných príspevkov.
  • Možno anotovať nenávistnú reč. Toto konzultovať s p. Sokolovou.
  • Z nazbieraných dát zostavte a vyhodnoťte model

Stretnutie 8.8.

Stav:

  • vypracovaný skript pre získanie dát z Reditt

Úlohy:

  • Vyskúšajte anotačný software Progi.gy. Vytvorte skript pre prípravu dát do formátu Prodi,gy.

Stretnutie 29.6.2023

Stav:

  • Je hotový skript pre zber diskusií z Facebooku. Skript je Python, Selenium a BS4.

Úlohy:

  • Vykonať prieskum literatúry. Aké sú existujúce anglické a slovenské databázy na analýzu sentimentu? Ako sa klasifikuje sentiment pomocou neurónových sietí? Prieskum by mal mať niekoľko strán a mal by obsahovať odkazy na odbornú literatúru a iné zdroje. https://github.com/slovak-nlp/resources Tu pozrite zoznam modelov a datasetov pre sentiment.
  • Skript na stiahnutie s krátkym komentárom dajte na KEMT GIT. Repo nazvite BP2024
  • Vyskúšajte rozpoznávanie sentimentu pre slovenčinu pomocou existujúceho modelu Huggingface Transformers. https://huggingface.co/kinit/slovakbert-sentiment-twitter Vyskúšajte tento model.
  • V prípade potreby Vám viem prideliť prístup na školský server s GPU.