zpwiki/pages/students/2023/yevhenii_medushivskyi
2025-02-28 09:35:53 +00:00
..
README.md Update pages/students/2023/yevhenii_medushivskyi/README.md 2025-02-28 09:35:53 +00:00

title published taxonomy
Yevhenii Medushivskyi true
category tag author
bp2026
ir
lm
nlp
Daniel Hladek

rok začiatku štúdia: 2023

Bakalárska práca 2026

Téma:

Extrakcia informácií z webových stránok

Predbežné zadanie:

  1. Vypracujte prehľad webových korpusov a metód ich tvorby.
  2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
  3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.

Stretnutie 28.2.2025

Úlohy:

  • Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
  • Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
  • Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).

Zásobník úloh:

  • Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát.
  • Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy.
  • Vytvorte korpus medicínskych dát.
  • Vytvorte korpus novinových článkov a blogov.
  • Vytvorte korpus webových diskusií.
  • Vytvorte korpus všeobecných dát.
  • Vytvorené texty analyzujte.