History

dano 3bfbe0d902 Update 'pages/students/2020/matej_kobylan/README.md'		2022-09-30 09:44:09 +00:00
..
README.md	Update 'pages/students/2020/matej_kobylan/README.md'	2022-09-30 09:44:09 +00:00

title

published

taxonomy

Matej Kobyľan

true

Bakalárska práca 2023

Systém pre monitoring médií

Práca súvisí s DP Michal Stromko

Návrh na zadanie:

Navrhnite a implementuje systém pre extrakciu textu a metainfrmácií z webových stránok alebo sociálnych sietí
Modifikujte agenta pre získavanie textu tak aby do databázy ukladal sledované webové stránky v pravidelných intervaloch.
Aplikujte neurónovú sieť na klasifikáciu získaných článkov.

Analýza úlohy:

Chceme vytvoriť databázu novinových článkov.

Pre článok chceme evidovať:

Ku databáze chceme vytvoriť agenta ktorý by v pravidelnýchh intervaloch dopĺňal nové články. Agenta pre zber textu stačí modifikovať.

Ku databáze chceme vytvoriť webové rozhranie.

V databáze chceme vedieť vyhľadávať.

Chceme vedieť automaticky zistiť tému článku.

Chceme automaticky zistiť sumár článku.

Stretnutie 30.9.2022

Úlohy:

Prečítajte si záverečné práce J. Holp, M. Stromko.
Vypracujte prehľad literatúry na tému "Monitorovanie médií". Otvorte si google scholar, hyhľadajte heslo "news monitoring" , "social media monitoring". Vyberte čláonky ktoré sa Vám zadajú zaujímavé, prečítajte si ch a napíšte na min. jednu stranu poznámky čo ste sa dozvedeli. Uveďte zdroje - názy článkov a autorov.
Nainštalujte si systém Anaconda.
Prejdite si Python tutoriál.
Zistite si, čo je systém Elasticsearch a ako pracuje. Napíšte o tom správu na jednu stranu.
Pomocou systému Docker si nainštalujte Elasticsdaerch 8.4
Prejdite si tutoriál https://elasticsearch-dsl.readthedocs.io/en/latest/index.html

Zásobník úloh:

Zistite ako pracuje agent pre zber textu - web crawler. Vyhľadajte odborné články alebo knihy na túto tému a urobte si poznámky.
Oboznámte sa s kódom agenta websucker.
Zistite, ako funguje knižnica BeautifulSoup.
Urobte si GIT repozitár, kde budeme dávať kódy.