Update pages/students/2023/yevhenii_medushivskyi/README.md
This commit is contained in:
parent
7d08f5ecab
commit
e64bf32b17
@ -23,5 +23,25 @@ Predbežné zadanie:
|
||||
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
||||
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
|
||||
|
||||
Stretnutie 28.2.2025
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
|
||||
- Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
|
||||
- Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).
|
||||
|
||||
|
||||
Zásobník úloh:
|
||||
|
||||
- Získajte prístup na vhodný školský server a nakonfigurujte vlastný crawler na získavanie doménovo orientovaných dát.
|
||||
- Vytvorte korpus súdnych dát - súdne rozhodnutia, zákony, vyhlášky, zmluvy.
|
||||
- Vytvorte korpus medicínskych dát.
|
||||
- Vytvorte korpus novinových článkov a blogov.
|
||||
- Vytvorte korpus webových diskusií.
|
||||
- Vytvorte korpus všeobecných dát.
|
||||
- Vytvorené texty analyzujte.
|
||||
|
||||
|
||||
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user