diff --git a/pages/students/2020/jakub_kristian_lukas/README.md b/pages/students/2020/jakub_kristian_lukas/README.md index 03836c8c..ceb000d6 100644 --- a/pages/students/2020/jakub_kristian_lukas/README.md +++ b/pages/students/2020/jakub_kristian_lukas/README.md @@ -13,8 +13,20 @@ rok začiatku štúdia: 2020 Téma: Systém pre rozpoznávanie nenávistnej reči v online diskusiách -Úloha: +Súvisí s PhD prácou [Manohar Gowdru Shridhara](students/2021/manohar_gowdru_shridharu) +Návrh na zadanie: + +- Preštudovať teóriu. - Zopakovať jednoduchý experiment pre rozpoznávanie nenávistnej reči v anglickom jazyku s pomocou frameworku HuggingFace transformers. -- Vypracovať webové demo +- Vypracovať webové demo. +Úlohy: + +- Zistiť ako funguje model BERT. Napísať o tom správu na 2 strany. Priložiť odkazy na odborné články. +- Nainštalovať si HuggingFace Transformers a vypracovať tutoriál. HF Transformers bude vyžadovať CUDA a Pytorch. Dostupné to je na školskom servri. +- Vyskúšať a preštudovať tieto modely + - https://huggingface.co/Hate-speech-CNERG/dehatebert-mono-english + - https://huggingface.co/Narrativa/byt5-base-tweet-hate-detection +- Prečítať a napísať poznámky na jednu stranu. + - https://arxiv.org/abs/2004.06465 diff --git a/pages/students/2020/matej_kobylan/README.md b/pages/students/2020/matej_kobylan/README.md index 502527f6..ea8a2e8a 100644 --- a/pages/students/2020/matej_kobylan/README.md +++ b/pages/students/2020/matej_kobylan/README.md @@ -3,7 +3,7 @@ title: Matej Kobyľan published: true taxonomy: category: [bp2023] - tag: [] + tag: [ir] author: Daniel Hladek --- @@ -13,9 +13,46 @@ rok začiatku štúdia: 2020 Systém pre monitoring médií +Práca súvisí s [DP Michal Stromko](/students/2019/michal_stromko) + +Návrh na zadanie: - Navrhnite a implementuje systém pre extrakciu textu a metainfrmácií z webových stránok alebo sociálnych sietí - Modifikujte agenta pre získavanie textu tak aby do databázy ukladal sledované webové stránky v pravidelných intervaloch. -- Aplikujte neurónovú sieť na klasifikáciu získaných článkov. +- Aplikujte neurónovú sieť na klasifikáciu získaných článkov. +Analýza úlohy: +Chceme vytvoriť databázu novinových článkov. + +Pre článok chceme evidovať: + +- zdroj +- autor +- titulok +- text rozdelený na odseky +- odkazy na iné články +- autorská sekcia +- autorské tagy alebo kľúčové slovíčka. +- perex +- dátum vydania. +- pôvodné html + +Ku databáze chceme vytvoriť agenta ktorý by v pravidelnýchh intervaloch dopĺňal nové články. Agenta pre zber textu stačí modifikovať. + +Ku databáze chceme vytvoriť webové rozhranie. + +V databáze chceme vedieť vyhľadávať. + +Chceme vedieť automaticky zistiť tému článku. + +Chceme automaticky zistiť sumár článku. + +Úlohy: + +- Vypracujte prehľad literatúry na tému "Monitorovanie médií". +- Vyberte vhodnú databázu. + - Postgres, Cassandra. +- Navrhnite schému. +- Modifikujte agenta pre zber textu. +- Implementujte webové rozhranie na prístup k databáze. diff --git a/pages/students/2020/matus_suchanic/README.md b/pages/students/2020/matus_suchanic/README.md index 82342dc4..5fe347b7 100644 --- a/pages/students/2020/matus_suchanic/README.md +++ b/pages/students/2020/matus_suchanic/README.md @@ -13,15 +13,19 @@ rok začiatku štúdia: 2020 Téma: Vyhľadávanie na slovenskej Wikipédii - Úloha: Implementovať jednoduchý systém na indexovanie článkov na slovenskej wikipédii a ich vyhľadávanie. +Práca súvisí s: + +- [DP Michal Stromko](/students/2019/michal_stromko) +- [BP Matej Kobyľan](/students/2020/matej_kobylan) + + # Vedecký projekt 2022 Extrakcia informácií z webových stránok - Finálny cieľ: - Vytvoriť skript ktorý spracuje HTML kód a identifikuje zaujímavé časti z webstránky, napr. noviny alebo diskusie (modrý koník)