From e64bf32b176a3332b3215fb24d458bd1a014918e Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 28 Feb 2025 09:35:53 +0000 Subject: [PATCH] Update pages/students/2023/yevhenii_medushivskyi/README.md --- .../2023/yevhenii_medushivskyi/README.md | 20 +++++++++++++++++++ 1 file changed, 20 insertions(+) diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index e293b1a1..4637afae 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -23,5 +23,25 @@ Predbežné zadanie: 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. +Stretnutie 28.2.2025 + +Úlohy: + +- Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda. +- Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články. +- Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser). + + +Zásobník úloh: + +- Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát. +- Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy. +- Vytvorte korpus medicínskych dát. +- Vytvorte korpus novinových článkov a blogov. +- Vytvorte korpus webových diskusií. +- Vytvorte korpus všeobecných dát. +- Vytvorené texty analyzujte. + +