.. | ||
README.md |
title | published | taxonomy | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
Yevhenii Medushivskyi | true |
|
rok začiatku štúdia: 2023
Bakalárska práca 2026
Téma:
Extrakcia informácií z webových stránok
Predbežné zadanie:
- Vypracujte prehľad webových korpusov a metód ich tvorby.
- Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
- Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
Stretnutie 28.2.2025
Úlohy:
- Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
- Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
- Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).
Zásobník úloh:
- Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát.
- Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy.
- Vytvorte korpus medicínskych dát.
- Vytvorte korpus novinových článkov a blogov.
- Vytvorte korpus webových diskusií.
- Vytvorte korpus všeobecných dát.
- Vytvorené texty analyzujte.