diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index 9d1dfb4f..978f6857 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -27,7 +27,22 @@ Stretnutie 7.11.2025 Stav: +- Vytvorený crawler na báze Scrapy, využíva redis, Mongo, Trafilatura, Playwright, Celery +Úlohy: + +- Vytvorte Deploymnet pomocou docker compose na školskom servri. +- Vytvorte WebUI pre sledovanie behu Crawlera. +- Navrhnite opatrenie proti preťaženiu zdroja dát. +- Spustite pokusné sťahovanie a zistite ako sa systém správa. Dávajte pozor na "preťaženie zdroja". +- Kódy dávajte na GIT. +- Pracujte na texte práce. Prehľad systémov na text mining, prehľad webových korpusov a metód ich tvorby. Opis nášho riešenia. + +Zásobník úloh: + +- Navrhnite systém pre vyhodnotenie domény. Aký je predpoklad pre získanie kvalitného textu? +- Navrhnite systém pre vyhodnoteie kvality textu. +- Spustite "produkčnú" prevádzku. Sledujte činnosť a množstvo získaného textu. Zostavte grafy a tabuľky. Stretnutie 9.10.2025