zpwiki/pages/students/2023/yevhenii_medushivskyi/README.md
2025-10-09 10:42:37 +02:00

3.4 KiB

title published taxonomy
Yevhenii Medushivskyi true
category tag author
bp2026
ir
lm
nlp
Daniel Hladek

rok začiatku štúdia: 2023

Bakalárska práca 2026

Téma:

Extrakcia informácií z webových stránok

Predbežné zadanie:

  1. Vypracujte prehľad webových korpusov a metód ich tvorby.
  2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
  3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.

Stretnutie 9.10.2025

Stav:

  • Pridané skripty pre pridanie hplt2
  • Prečítané Web Mining and Text mining - vypracované poznámky.
  • Preštudované Docker.

Úlohy:

  • Pozrite sa na HPLT3.
  • Pozrite sa na https://github.com/lc/gau
  • Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
  • Zistite na čo je súbor robots.txt.
  • Zistite, ako nasadiť aplikáciu pomocou Docker Compose.
  • Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...)
  • Mal by mať časť, ktorá sa zameriava na určité stránky (média, noviny, blogy, doménové stránky ) a časť ktorá zísava texty zo "statických" stránok.
  • Mal by byť schopný sa vyhnúť "nekvalitným" stránkam - eshopom, "nevhodnému" obsahu. Mal by vedieť ohodnotiť "kvalitu" získaného textu.
  • Crawler by mal mať webové rozhranie pre prehľad o jeho činnosti a výsledkoch.
  • Kódy posielajte na katedrový git.
  • Píšte si poznámky. Vypracujte prehľad existujúcich crawlerov a odborných článkov o text mining. Použite google scholar.

Zásobník úloh

Stretnutie 20.8.2025

Stav:

  • Oboznámenie sa s Common Crawl.
  • Splnené minulé úlohy

Úlohy:

  • Oboznámte sa s pojmom "web mining" alebo "text mining". Vyhľadajte tieto pojmy na google scholar, prečítajte si články a napíšte si poznámky.
  • Oboznámte sa s datasetom HPLT2. Naštudujte si celý proces tvorby datasetu.
  • Oboznámte sa s procesom tvorby veľkého slovenského korpusu. Pozrite si adresár data v repozitari.
  • Podľa vzoru si vytvorte vlastnú kópiu skriptov, vyskúšajte ich. Vedúci vytvorí prístup na školský server.
  • Pridajte slovenské dáta z HPLT2.

Zásobník úloh:

  • Oboznámte sa s platformou Docker.
  • Vytvorte a nasadte crawler pre slovenský jazyk. Použite existujúci projekt websucker, alebo iný.
  • Vytvorte doménovo orientovaný crawler.
  • Nasadte monitorovanie behu crawlera pomocou webovej aplikácie.

Stretnutie 28.2.2025

Úlohy:

  • Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
  • Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
  • Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).

Zásobník úloh:

  • Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát.
  • Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy.
  • Vytvorte korpus medicínskych dát.
  • Vytvorte korpus novinových článkov a blogov.
  • Vytvorte korpus webových diskusií.
  • Vytvorte korpus všeobecných dát.
  • Vytvorené texty analyzujte.