Update 'pages/students/2021/vladimir_ferko/README.md'

This commit is contained in:
dano 2023-06-29 10:44:01 +00:00
parent b013eae5ff
commit 1acf509cd5

View File

@ -13,20 +13,30 @@ rok začiatku štúdia: 2021
## Bakalárska práca 2024
Spolupráca: [Eduard Matovka](/students/2021/eduard_matovka)
Nadväzuje [Martin Jancura](/students/2017/martin_jancura)
Tvorba slovenského webového korpusu diskusií
Predbežné zadanie - úlohy na semester:
- Zostavte zoznam kvalitných zdrojov slovenských textov.
- Nastavte agenta pre zber textu pre zber textu zo slovenského internetu.
- Vytvorte webovú aplikáciu pre sledovanie zberu.
- Zo zozbieraného textu zostavte korpus a zobrazte štatistiky získaných dát.
- Vytvoriť slovenskú databázu diskusií. Databáza by mala byť prezentovateľná na konferencii a použiteľná pre rozpoznávanie nenávistnej reči.
- zobrazte štatistiky získaných dát.
- Anotovať sentiment diskusných príspevkov.
- Možno anotovať nenávistnú reč. Toto konzultovať s p. Sokolovou.
- Z nazbieraných dát zostavte a vyhodnoťte model
Stretnutie 29.6.2023
Stav:
Má skript pre zber z Facebooku.
- Je hotový skript pre zber diskusií z Facebooku. Skript je Python, Selenium a BS4.
Úlohy:
- Vykonať prieskum literatúry. Aké sú existujúce databázy na analýzu sentimentu? Ako sa klasifikuje sentiment pomocou neurónových sietí?
- Vyskúšajte rozpoznávanie sentimentu pre slovenčinu pomocou existujúceho modelu Huggingface Transformers.