zpwiki/pages/students/2023/yevhenii_medushivskyi/README.md

---
title: Yevhenii Medushivskyi
published: true
taxonomy:
    category: [bp2026]
    tag: [ir,lm,nlp]
    author: Daniel Hladek
---


rok začiatku štúdia: 2023

# Bakalárska práca 2026


Téma:

Extrakcia informácií z webových stránok

Predbežné zadanie:

1. Vypracujte prehľad webových korpusov a metód ich tvorby.
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.

Stretnutie 20.8.2025

Stav:

- Oboznámenie sa s Common Crawl.
- Splnené minulé úlohy


Úlohy:

- Oboznámte sa s pojmom "web mining" alebo "text mining". Vyhľadajte tieto pojmy na google scholar, prečítajte si články a napíšte si poznámky.
- Oboznámte sa s datasetom HPLT2. Naštudujte si celý proces tvorby datasetu.
- Oboznámte sa s procesom tvorby veľkého slovenského korpusu. Pozrite si adresár data v [repozitari](https://git.kemt.fei.tuke.sk/dano/bert-train).
- Podľa vzoru si vytvorte vlastnú kópiu skriptov, vyskúšajte ich. Vedúci vytvorí prístup na školský server.
- Pridajte slovenské dáta z HPLT2.

Zásobník úloh:

- Oboznámte sa s platformou Docker.
- Vytvorte a nasadte crawler pre slovenský jazyk. Použite existujúci projekt [websucker](https://git.kemt.fei.tuke.sk/dano/websucker-pip), alebo iný.
- Vytvorte doménovo orientovaný crawler.
- Nasadte monitorovanie behu crawlera pomocou webovej aplikácie.

Stretnutie 28.2.2025

Úlohy:

- [x] Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
- [x] Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
- [x] Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).


Zásobník úloh:

- Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát.
- Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy.
- Vytvorte korpus medicínskych dát.
- Vytvorte korpus novinových článkov a blogov.
- Vytvorte korpus webových diskusií.
- Vytvorte korpus všeobecných dát.
- Vytvorené texty analyzujte.