zz

2025-10-09 10:42:37 +02:00 · 2025-10-09 10:42:37 +02:00 · 0c36a39dce
commit 0c36a39dce
parent d5efd6b914
1 changed files with 25 additions and 0 deletions
--- a/pages/students/2023/yevhenii_medushivskyi/README.md
+++ b/pages/students/2023/yevhenii_medushivskyi/README.md
@ -23,6 +23,31 @@ Predbežné zadanie:
 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
 Stretnutie 9.10.2025
 Stav:
 - Pridané skripty pre pridanie hplt2
 - Prečítané Web Mining and Text mining - vypracované poznámky.
 - Preštudované Docker.
 Úlohy:
 - Pozrite sa na HPLT3.
 - Pozrite sa na https://github.com/lc/gau
 - Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
 - Zistite na čo je súbor robots.txt.
 - Zistite, ako nasadiť aplikáciu pomocou Docker Compose.
 - Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...)
 - Mal by mať časť, ktorá sa zameriava na určité stránky  (média, noviny, blogy, doménové stránky ) a časť ktorá zísava texty zo "statických" stránok.
 - Mal by byť schopný sa vyhnúť "nekvalitným" stránkam - eshopom, "nevhodnému" obsahu. Mal by vedieť ohodnotiť "kvalitu" získaného textu. 
 - Crawler by mal mať webové rozhranie pre prehľad o jeho činnosti a výsledkoch.
 - Kódy posielajte na katedrový git.
 - Píšte si poznámky. Vypracujte prehľad existujúcich crawlerov a odborných článkov o text mining. Použite google scholar.
 Zásobník úloh
 Stretnutie 20.8.2025
 Stav: