Update pages/students/2023/yevhenii_medushivskyi/README.md

2025-02-28 09:35:53 +00:00 · 2025-02-28 09:35:53 +00:00 · e64bf32b17
commit e64bf32b17
parent 7d08f5ecab
1 changed files with 20 additions and 0 deletions
--- a/pages/students/2023/yevhenii_medushivskyi/README.md
+++ b/pages/students/2023/yevhenii_medushivskyi/README.md
@ -23,5 +23,25 @@ Predbežné zadanie:
 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.

+Stretnutie 28.2.2025
+
+Úlohy:
+
+- Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
+- Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
+- Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).
+
+
+Zásobník úloh:
+
+- Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát.
+- Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy.
+- Vytvorte korpus medicínskych dát.
+- Vytvorte korpus novinových článkov a blogov.
+- Vytvorte korpus webových diskusií.
+- Vytvorte korpus všeobecných dát.
+- Vytvorené texty analyzujte. 
+ 
+