forked from KEMT/zpwiki
93 lines
3.0 KiB
Markdown
93 lines
3.0 KiB
Markdown
---
|
|
title: Matej Kobyľan
|
|
published: true
|
|
taxonomy:
|
|
category: [bp2023]
|
|
tag: [ir]
|
|
author: Daniel Hladek
|
|
---
|
|
|
|
rok začiatku štúdia: 2020
|
|
|
|
# Bakalárska práca 2023
|
|
|
|
Systém pre monitoring médií
|
|
|
|
Práca súvisí s [DP Michal Stromko](/students/2019/michal_stromko)
|
|
|
|
Návrh na zadanie:
|
|
|
|
- Navrhnite a implementuje systém pre extrakciu textu a metainfrmácií z webových stránok alebo sociálnych sietí
|
|
- Modifikujte agenta pre získavanie textu tak aby do databázy ukladal sledované webové stránky v pravidelných intervaloch.
|
|
- Aplikujte neurónovú sieť na klasifikáciu získaných článkov.
|
|
|
|
Analýza úlohy:
|
|
|
|
Chceme vytvoriť databázu novinových článkov.
|
|
|
|
Pre článok chceme evidovať:
|
|
|
|
- zdroj
|
|
- autor
|
|
- titulok
|
|
- text rozdelený na odseky
|
|
- odkazy na iné články
|
|
- autorská sekcia
|
|
- autorské tagy alebo kľúčové slovíčka.
|
|
- perex
|
|
- dátum vydania.
|
|
- pôvodné html
|
|
|
|
Ku databáze chceme vytvoriť agenta ktorý by v pravidelných intervaloch dopĺňal nové články. Agenta pre zber textu stačí modifikovať.
|
|
|
|
Ku databáze chceme vytvoriť webové rozhranie.
|
|
|
|
V databáze chceme vedieť vyhľadávať.
|
|
|
|
Chceme vedieť automaticky zistiť tému článku.
|
|
|
|
Chceme automaticky zistiť sumár článku.
|
|
|
|
- Vyberte vhodnú databázu.
|
|
- Postgres, Cassandra.
|
|
- Navrhnite schému.
|
|
- Modifikujte agenta pre zber textu.
|
|
- Implementujte webové rozhranie na prístup k databáze.
|
|
|
|
|
|
Stretnutie 24.1.2022
|
|
|
|
Stav:
|
|
|
|
- Začiatok štúdia Python.
|
|
- Prečítané články: "COVID a kľúčové slová", o Elasticsearch.
|
|
|
|
Úlohy:
|
|
|
|
- Pokračovať v otvorených úlohách z 30.9.
|
|
- Zistite, čo je to systém RASA a ako pracuje.
|
|
- Skúste prejsť tutoriál https://rasa.com/blog/category/tutorials/
|
|
- Zvážiť zmenu témy na "RASA" dialógový systém.
|
|
|
|
|
|
Stretnutie 30.9.2022
|
|
|
|
Úlohy:
|
|
|
|
- [x] Prečítajte si záverečné práce J. Holp, M. Stromko.
|
|
- [ ] Nainštalujte si systém Anaconda. Naučte sa pracovať s virtuálnymi prostrediami.
|
|
- [x] Prejdite si Python tutoriál.
|
|
- [ ] Zistite ako pracuje agent pre zber textu - web crawler. Vyhľadajte odborné články alebo knihy na túto tému a urobte si poznámky.
|
|
- [ ] Oboznámte sa s kódom agenta websucker https://git.kemt.fei.tuke.sk/dano/websucker-pip.
|
|
|
|
Zásobník úloh:
|
|
|
|
- Pozrieť sa na https://github.com/microsoft/playwright-python
|
|
- Zistite, ako funguje knižnica BeautifulSoup, vypracujte tutoriál.
|
|
- Vypracujte prehľad literatúry na tému "Monitorovanie médií". Otvorte si google scholar, hyhľadajte heslo "news monitoring" , "social media monitoring". Vyberte články ktoré sa Vám zadajú zaujímavé, prečítajte si ch a napíšte na min. jednu stranu poznámky čo ste sa dozvedeli. Uveďte zdroje - názy článkov a autorov.
|
|
- Zistite si, čo je systém Elasticsearch a ako pracuje. Napíšte o tom správu na jednu stranu.
|
|
- Pomocou systému Docker si nainštalujte Elasticsearch 8.4
|
|
- Prejdite si tutoriál https://elasticsearch-dsl.readthedocs.io/en/latest/index.html
|
|
- Urobte si GIT repozitár, kde budeme dávať kódy.
|
|
|