From 0a01d0e86943ff0f4125bb252650d901aef3d679 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 7 Nov 2025 10:28:50 +0000 Subject: [PATCH] Update pages/students/2023/yevhenii_medushivskyi/README.md --- .../students/2023/yevhenii_medushivskyi/README.md | 15 +++++++++++++++ 1 file changed, 15 insertions(+) diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index 9d1dfb4f..978f6857 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -27,7 +27,22 @@ Stretnutie 7.11.2025 Stav: +- Vytvorený crawler na báze Scrapy, využíva redis, Mongo, Trafilatura, Playwright, Celery +Úlohy: + +- Vytvorte Deploymnet pomocou docker compose na školskom servri. +- Vytvorte WebUI pre sledovanie behu Crawlera. +- Navrhnite opatrenie proti preťaženiu zdroja dát. +- Spustite pokusné sťahovanie a zistite ako sa systém správa. Dávajte pozor na "preťaženie zdroja". +- Kódy dávajte na GIT. +- Pracujte na texte práce. Prehľad systémov na text mining, prehľad webových korpusov a metód ich tvorby. Opis nášho riešenia. + +Zásobník úloh: + +- Navrhnite systém pre vyhodnotenie domény. Aký je predpoklad pre získanie kvalitného textu? +- Navrhnite systém pre vyhodnoteie kvality textu. +- Spustite "produkčnú" prevádzku. Sledujte činnosť a množstvo získaného textu. Zostavte grafy a tabuľky. Stretnutie 9.10.2025