--- title: Vladimír Ferko published: true taxonomy: category: [bp2024] tag: [dialog,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2021 študent KPI, pracovník DTSS ## Bakalárska práca 2024 - [Projekt HateSpeech](/topics/hatespeech) - [Pokyny KPI ku záverečným prácam](https://kpi.fei.tuke.sk/sk/zaverecne-prace) - Spolupráca: [Eduard Matovka](/students/2021/eduard_matovka) - Nadväzuje [Martin Jancura](/students/2017/martin_jancura) Názov: Anotácia a vyhodnotenie slovenskej databázy nenávistnej reči Predbežné zadanie - úlohy na semester: - Vytvoriť slovenskú databázu diskusií. Databáza by mala byť prezentovateľná na konferencii a použiteľná pre rozpoznávanie nenávistnej reči. - zobrazte štatistiky získaných dát. - Anotovať sentiment diskusných príspevkov. - Možno anotovať nenávistnú reč. Toto konzultovať s p. Sokolovou. - Z nazbieraných dát zostavte a vyhodnoťte model Stretnutie 13.10.2023 Stav: - Rozbehané Prodigy anotácie - Vyskúšaný model https://huggingface.co/kinit/slovakbert-sentiment-twitter Úlohy: - [ ] Vykonať prieskum literatúry. Aké sú existujúce anglické a slovenské databázy na analýzu sentimentu? Ako sa klasifikuje sentiment pomocou neurónových sietí? Prieskum by mal mať niekoľko strán a mal by obsahovať odkazy na odbornú literatúru a iné zdroje. https://github.com/slovak-nlp/resources Tu pozrite zoznam modelov a datasetov pre sentiment. Nájdite aj niekoľko článkov na tému "crowdsourcing dataset for sentiment classification". Robte si písomné poznámky, použije sa to do BP. - [ ] Vytvorte KEMT GIT repo. Nastavte tam synchronizáciu s KPI Git tak aby som mal prístup k zdrojovým kódom na stiahnutie a na tvorbu modelov. - Preštudujte si zdrojové kódy https://github.com/hladek/hate-annot a skúste ich rozbehať na svojom počítači s Vašimi dátami. Zásobník úloh: - Čím skôr rozbehať anotácie sentimentu alebo hate speech medzi študentami. - Zozbierané dáta využiť na natrénovanie modelu. - Oboznámte sa so skriptom https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-classification skúste ho rozbehať aj na iných vlastných dátach. - Prečítajte si knižku https://d2l.ai/ Stretnutie 8.8. Stav: - vypracovaný skript pre získanie dát z Reditt Úlohy: - [x] Rozbehajte u seba jednoduché anotácie pomocou Prodigy. V texte označujte časti, ktoré sú urážlivé. Môžete to urobiť podľa skritpov v https://git.kemt.fei.tuke.sk/dano/annotation . Dáta anotujete podobne ako "named entities". Zásobník úloh: - Finalizovať dátovú množinu (facebook alebo reddit) a anotačnú schému. - Pripraviť návod pre anotátorov - Pripraviť webovú appku na sledovanie anotácií. - Natrénovať model. Stretnutie 29.6.2023 Stav: - Je hotový skript pre zber diskusií z Facebooku. Skript je Python, Selenium a BS4. Úlohy: - [ ] Vykonať prieskum literatúry. Aké sú existujúce anglické a slovenské databázy na analýzu sentimentu? Ako sa klasifikuje sentiment pomocou neurónových sietí? Prieskum by mal mať niekoľko strán a mal by obsahovať odkazy na odbornú literatúru a iné zdroje. https://github.com/slovak-nlp/resources Tu pozrite zoznam modelov a datasetov pre sentiment. - [ ] Skript na stiahnutie s krátkym komentárom dajte na KEMT GIT. Repo nazvite BP2024 - [ ] Vyskúšajte rozpoznávanie sentimentu pre slovenčinu pomocou existujúceho modelu Huggingface Transformers. https://huggingface.co/kinit/slovakbert-sentiment-twitter Vyskúšajte tento model. - V prípade potreby Vám viem prideliť prístup na školský server s GPU.