zz
This commit is contained in:
parent
c3445e1106
commit
eb90c24637
@ -23,13 +23,36 @@ Predbežné zadanie:
|
|||||||
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
||||||
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
|
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
|
||||||
|
|
||||||
|
Stretnutie 20.8.2025
|
||||||
|
|
||||||
|
Stav:
|
||||||
|
|
||||||
|
- Oboznámenie sa s Common Crawl.
|
||||||
|
- Splnené minulé úlohy
|
||||||
|
|
||||||
|
|
||||||
|
Úlohy:
|
||||||
|
|
||||||
|
- Oboznámte sa s pojmom "web mining" alebo "text mining". Vyhľadajte tieto pojmy na google scholar, prečítajte si články a napíšte si poznámky.
|
||||||
|
- Oboznámte sa s datasetom HPLT2. Naštudujte si celý proces tvorby datasetu.
|
||||||
|
- Oboznámte sa s procesom tvorby veľkého slovenského korpusu. Pozrite si adresár data v [repozitari](https://git.kemt.fei.tuke.sk/dano/bert-train).
|
||||||
|
- Podľa vzoru si vytvorte vlastnú kópiu skriptov, vyskúšajte ich. Vedúci vytvorí prístup na školský server.
|
||||||
|
- Pridajte slovenské dáta z HPLT2.
|
||||||
|
|
||||||
|
Zásobník úloh:
|
||||||
|
|
||||||
|
- Oboznámte sa s platformou Docker.
|
||||||
|
- Vytvorte a nasadte crawler pre slovenský jazyk. Použite existujúci projekt [websucker](https://git.kemt.fei.tuke.sk/dano/websucker-pip), alebo iný.
|
||||||
|
- Vytvorte doménovo orientovaný crawler.
|
||||||
|
- Nasadte monitorovanie behu crawlera pomocou webovej aplikácie.
|
||||||
|
|
||||||
Stretnutie 28.2.2025
|
Stretnutie 28.2.2025
|
||||||
|
|
||||||
Úlohy:
|
Úlohy:
|
||||||
|
|
||||||
- Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
|
- [x] Oboznámte sa s jazykom Python. Kniha Dive into Python 3, nainštalujte si prostredie Anaconda.
|
||||||
- Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
|
- [x] Vypracujte prehľad webových korpusov pre trénovanie jazykových modelov a metód ich tvorby. C4 alebo mC4. Zoznam nájdete na https://github.com/slovak-nlp/resources. Napíšte si poznámky. Prečítajte si odborné články.
|
||||||
- Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).
|
- [x] Pozrite si projekty Apache Tika, Trafilatura, Apache Nutch, BeautifulSoup, Pupeteer (headless browser).
|
||||||
|
|
||||||
|
|
||||||
Zásobník úloh:
|
Zásobník úloh:
|
||||||
|
Loading…
Reference in New Issue
Block a user