zz
This commit is contained in:
parent
d5efd6b914
commit
0c36a39dce
@ -23,6 +23,31 @@ Predbežné zadanie:
|
|||||||
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
||||||
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
|
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
|
||||||
|
|
||||||
|
Stretnutie 9.10.2025
|
||||||
|
|
||||||
|
Stav:
|
||||||
|
|
||||||
|
- Pridané skripty pre pridanie hplt2
|
||||||
|
- Prečítané Web Mining and Text mining - vypracované poznámky.
|
||||||
|
- Preštudované Docker.
|
||||||
|
|
||||||
|
Úlohy:
|
||||||
|
|
||||||
|
- Pozrite sa na HPLT3.
|
||||||
|
- Pozrite sa na https://github.com/lc/gau
|
||||||
|
- Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
|
||||||
|
- Zistite na čo je súbor robots.txt.
|
||||||
|
- Zistite, ako nasadiť aplikáciu pomocou Docker Compose.
|
||||||
|
- Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...)
|
||||||
|
- Mal by mať časť, ktorá sa zameriava na určité stránky (média, noviny, blogy, doménové stránky ) a časť ktorá zísava texty zo "statických" stránok.
|
||||||
|
- Mal by byť schopný sa vyhnúť "nekvalitným" stránkam - eshopom, "nevhodnému" obsahu. Mal by vedieť ohodnotiť "kvalitu" získaného textu.
|
||||||
|
- Crawler by mal mať webové rozhranie pre prehľad o jeho činnosti a výsledkoch.
|
||||||
|
- Kódy posielajte na katedrový git.
|
||||||
|
- Píšte si poznámky. Vypracujte prehľad existujúcich crawlerov a odborných článkov o text mining. Použite google scholar.
|
||||||
|
|
||||||
|
Zásobník úloh
|
||||||
|
|
||||||
|
|
||||||
Stretnutie 20.8.2025
|
Stretnutie 20.8.2025
|
||||||
|
|
||||||
Stav:
|
Stav:
|
||||||
|
Loading…
Reference in New Issue
Block a user