--- title: Yevhenii Medushivskyi published: true taxonomy: category: [bp2026] tag: [ir,lm,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2023 # Bakalárska práca 2026 Téma: Extrakcia informácií z webových stránok Predbežné zadanie: 1. Vypracujte prehľad webových korpusov a metód ich tvorby. 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu. Stretnutie 9.10.2025 Stav: - Pridané skripty pre pridanie hplt2 - Prečítané Web Mining and Text mining - vypracované poznámky. - Preštudované Docker. Úlohy: - Pozrite sa na HPLT3. - Pozrite sa na https://github.com/lc/gau - Zistite na čo je súbor robots.txt. - Zistite, ako nasadiť aplikáciu pomocou Docker Compose. - Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...) - Mal by mať časť, ktorá sa zameriava na určité stránky (média, noviny, blogy, doménové stránky ) a časť ktorá zísava texty zo "statických" stránok. - Mal by byť schopný sa vyhnúť "nekvalitným" stránkam - eshopom, "nevhodnému" obsahu. Mal by vedieť ohodnotiť "kvalitu" získaného textu. - Crawler by mal mať webové rozhranie pre prehľad o jeho činnosti a výsledkoch. - Kódy posielajte na katedrový git. - Píšte si poznámky. Vypracujte prehľad existujúcich crawlerov a odborných článkov o text mining. Použite google scholar. Zásobník úloh Stretnutie 20.8.2025 Stav: - Oboznámenie sa s Common Crawl. - Splnené minulé úlohy Úlohy: - Oboznámte sa s pojmom "web mining" alebo "text mining". Vyhľadajte tieto pojmy na google scholar, prečítajte si články a napíšte si poznámky. - Oboznámte sa s datasetom HPLT2. Naštudujte si celý proces tvorby datasetu. - Oboznámte sa s procesom tvorby veľkého slovenského korpusu. Pozrite si adresár data v [repozitari](https://git.kemt.fei.tuke.sk/dano/bert-train). - Podľa vzoru si vytvorte vlastnú kópiu skriptov, vyskúšajte ich. Vedúci vytvorí prístup na školský server. - Pridajte slovenské dáta z HPLT2. Zásobník úloh: - Oboznámte sa s platformou Docker. - Vytvorte a nasadte crawler pre slovenský jazyk. Použite existujúci projekt [websucker](https://git.kemt.fei.tuke.sk/dano/websucker-pip), alebo iný. - Vytvorte doménovo orientovaný crawler. - Nasadte monitorovanie behu crawlera pomocou webovej aplikácie. Stretnutie 28.2.2025 Úlohy: - [x] Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda. - [x] Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články. - [x] Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser). Zásobník úloh: - Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát. - Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy. - Vytvorte korpus medicínskych dát. - Vytvorte korpus novinových článkov a blogov. - Vytvorte korpus webových diskusií. - Vytvorte korpus všeobecných dát. - Vytvorené texty analyzujte.