| .. | ||
| README.md | ||
| title | published | taxonomy | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| Matej Kobyľan | true | 
  | 
rok začiatku štúdia: 2020
Bakalárska práca 2023
Systém pre monitoring médií
Práca súvisí s DP Michal Stromko
Návrh na zadanie:
- Navrhnite a implementuje systém pre extrakciu textu a metainfrmácií z webových stránok alebo sociálnych sietí
 - Modifikujte agenta pre získavanie textu tak aby do databázy ukladal sledované webové stránky v pravidelných intervaloch.
 - Aplikujte neurónovú sieť na klasifikáciu získaných článkov.
 
Analýza úlohy:
Chceme vytvoriť databázu novinových článkov.
Pre článok chceme evidovať:
- zdroj
 - autor
 - titulok
 - text rozdelený na odseky
 - odkazy na iné články
 - autorská sekcia
 - autorské tagy alebo kľúčové slovíčka.
 - perex
 - dátum vydania.
 - pôvodné html
 
Ku databáze chceme vytvoriť agenta ktorý by v pravidelnýchh intervaloch dopĺňal nové články. Agenta pre zber textu stačí modifikovať.
Ku databáze chceme vytvoriť webové rozhranie.
V databáze chceme vedieť vyhľadávať.
Chceme vedieť automaticky zistiť tému článku.
Chceme automaticky zistiť sumár článku.
- Vyberte vhodnú databázu.
- Postgres, Cassandra.
 
 - Navrhnite schému.
 - Modifikujte agenta pre zber textu.
 - Implementujte webové rozhranie na prístup k databáze.
 
Stretnutie 30.9.2022
Úlohy:
- Prečítajte si záverečné práce J. Holp, M. Stromko.
 - Vypracujte prehľad literatúry na tému "Monitorovanie médií". Otvorte si google scholar, hyhľadajte heslo "news monitoring" , "social media monitoring". Vyberte čláonky ktoré sa Vám zadajú zaujímavé, prečítajte si ch a napíšte na min. jednu stranu poznámky čo ste sa dozvedeli. Uveďte zdroje - názy článkov a autorov.
 - Nainštalujte si systém Anaconda.
 - Prejdite si Python tutoriál.
 - Zistite si, čo je systém Elasticsearch a ako pracuje. Napíšte o tom správu na jednu stranu.
 - Pomocou systému Docker si nainštalujte Elasticsdaerch 8.4
 - Prejdite si tutoriál https://elasticsearch-dsl.readthedocs.io/en/latest/index.html
 
Zásobník úloh:
- Zistite ako pracuje agent pre zber textu - web crawler. Vyhľadajte odborné články alebo knihy na túto tému a urobte si poznámky.
 - Oboznámte sa s kódom agenta websucker.
 - Zistite, ako funguje knižnica BeautifulSoup.
 - Urobte si GIT repozitár, kde budeme dávať kódy.