--- title: Matej Kobyľan published: true taxonomy: category: [bp2023] tag: [ir] author: Daniel Hladek --- rok začiatku štúdia: 2020 # Bakalárska práca 2023 Systém pre monitoring médií Práca súvisí s [DP Michal Stromko](/students/2019/michal_stromko) Návrh na zadanie: - Navrhnite a implementuje systém pre extrakciu textu a metainfrmácií z webových stránok alebo sociálnych sietí - Modifikujte agenta pre získavanie textu tak aby do databázy ukladal sledované webové stránky v pravidelných intervaloch. - Aplikujte neurónovú sieť na klasifikáciu získaných článkov. Analýza úlohy: Chceme vytvoriť databázu novinových článkov. Pre článok chceme evidovať: - zdroj - autor - titulok - text rozdelený na odseky - odkazy na iné články - autorská sekcia - autorské tagy alebo kľúčové slovíčka. - perex - dátum vydania. - pôvodné html Ku databáze chceme vytvoriť agenta ktorý by v pravidelnýchh intervaloch dopĺňal nové články. Agenta pre zber textu stačí modifikovať. Ku databáze chceme vytvoriť webové rozhranie. V databáze chceme vedieť vyhľadávať. Chceme vedieť automaticky zistiť tému článku. Chceme automaticky zistiť sumár článku. - Vyberte vhodnú databázu. - Postgres, Cassandra. - Navrhnite schému. - Modifikujte agenta pre zber textu. - Implementujte webové rozhranie na prístup k databáze. Stretnutie 30.9.2022 Úlohy: - Prečítajte si záverečné práce J. Holp, M. Stromko. - Vypracujte prehľad literatúry na tému "Monitorovanie médií". Otvorte si google scholar, hyhľadajte heslo "news monitoring" , "social media monitoring". Vyberte čláonky ktoré sa Vám zadajú zaujímavé, prečítajte si ch a napíšte na min. jednu stranu poznámky čo ste sa dozvedeli. Uveďte zdroje - názy článkov a autorov. - Nainštalujte si systém Anaconda. - Prejdite si Python tutoriál. - Zistite si, čo je systém Elasticsearch a ako pracuje. Napíšte o tom správu na jednu stranu. - Pomocou systému Docker si nainštalujte Elasticsdaerch 8.4 - Prejdite si tutoriál https://elasticsearch-dsl.readthedocs.io/en/latest/index.html Zásobník úloh: - Zistite ako pracuje agent pre zber textu - web crawler. Vyhľadajte odborné články alebo knihy na túto tému a urobte si poznámky. - Oboznámte sa s kódom agenta websucker. - Zistite, ako funguje knižnica BeautifulSoup. - Urobte si GIT repozitár, kde budeme dávať kódy.