This commit is contained in:
Daniel Hládek 2022-09-29 09:34:37 +02:00
parent 945f0ec273
commit 3360fc9987
3 changed files with 59 additions and 6 deletions

View File

@ -13,8 +13,20 @@ rok začiatku štúdia: 2020
Téma: Systém pre rozpoznávanie nenávistnej reči v online diskusiách
Úloha:
Súvisí s PhD prácou [Manohar Gowdru Shridhara](students/2021/manohar_gowdru_shridharu)
Návrh na zadanie:
- Preštudovať teóriu.
- Zopakovať jednoduchý experiment pre rozpoznávanie nenávistnej reči v anglickom jazyku s pomocou frameworku HuggingFace transformers.
- Vypracovať webové demo
- Vypracovať webové demo.
Úlohy:
- Zistiť ako funguje model BERT. Napísať o tom správu na 2 strany. Priložiť odkazy na odborné články.
- Nainštalovať si HuggingFace Transformers a vypracovať tutoriál. HF Transformers bude vyžadovať CUDA a Pytorch. Dostupné to je na školskom servri.
- Vyskúšať a preštudovať tieto modely
- https://huggingface.co/Hate-speech-CNERG/dehatebert-mono-english
- https://huggingface.co/Narrativa/byt5-base-tweet-hate-detection
- Prečítať a napísať poznámky na jednu stranu.
- https://arxiv.org/abs/2004.06465

View File

@ -3,7 +3,7 @@ title: Matej Kobyľan
published: true
taxonomy:
category: [bp2023]
tag: []
tag: [ir]
author: Daniel Hladek
---
@ -13,9 +13,46 @@ rok začiatku štúdia: 2020
Systém pre monitoring médií
Práca súvisí s [DP Michal Stromko](/students/2019/michal_stromko)
Návrh na zadanie:
- Navrhnite a implementuje systém pre extrakciu textu a metainfrmácií z webových stránok alebo sociálnych sietí
- Modifikujte agenta pre získavanie textu tak aby do databázy ukladal sledované webové stránky v pravidelných intervaloch.
- Aplikujte neurónovú sieť na klasifikáciu získaných článkov.
Analýza úlohy:
Chceme vytvoriť databázu novinových článkov.
Pre článok chceme evidovať:
- zdroj
- autor
- titulok
- text rozdelený na odseky
- odkazy na iné články
- autorská sekcia
- autorské tagy alebo kľúčové slovíčka.
- perex
- dátum vydania.
- pôvodné html
Ku databáze chceme vytvoriť agenta ktorý by v pravidelnýchh intervaloch dopĺňal nové články. Agenta pre zber textu stačí modifikovať.
Ku databáze chceme vytvoriť webové rozhranie.
V databáze chceme vedieť vyhľadávať.
Chceme vedieť automaticky zistiť tému článku.
Chceme automaticky zistiť sumár článku.
Úlohy:
- Vypracujte prehľad literatúry na tému "Monitorovanie médií".
- Vyberte vhodnú databázu.
- Postgres, Cassandra.
- Navrhnite schému.
- Modifikujte agenta pre zber textu.
- Implementujte webové rozhranie na prístup k databáze.

View File

@ -13,15 +13,19 @@ rok začiatku štúdia: 2020
Téma: Vyhľadávanie na slovenskej Wikipédii
Úloha: Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie.
Práca súvisí s:
- [DP Michal Stromko](/students/2019/michal_stromko)
- [BP Matej Kobyľan](/students/2020/matej_kobylan)
# Vedecký projekt 2022
Extrakcia informácií z webových stránok
Finálny cieľ:
- Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)