--- title: Yevhenii Medushivskyi published: true taxonomy: category: [bp2026] tag: [ir,lm,nlp] author: Daniel Hladek --- rok začiatku štúdia: 2023 # Bakalárska práca 2026 Téma: Extrakcia informácií z webových stránok Predbežné zadanie: 1. Vypracujte prehľad webových korpusov a metód ich tvorby. 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. Stretnutie 28.2.2025 Úlohy: - Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda. - Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články. - Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser). Zásobník úloh: - Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát. - Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy. - Vytvorte korpus medicínskych dát. - Vytvorte korpus novinových článkov a blogov. - Vytvorte korpus webových diskusií. - Vytvorte korpus všeobecných dát. - Vytvorené texty analyzujte.