From baa044d823f9ee90fae7aceb47e480e2583b25f4 Mon Sep 17 00:00:00 2001 From: dano Date: Wed, 4 Feb 2026 12:22:34 +0000 Subject: [PATCH] Update pages/students/2023/yevhenii_medushivskyi/README.md --- pages/students/2023/yevhenii_medushivskyi/README.md | 13 +++++++++++++ 1 file changed, 13 insertions(+) diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index 8fea81be..39617ae0 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -24,6 +24,19 @@ Zadanie: 3. Pomocou crawlera získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 4. Analyzujte získané dáta, priebeh ich sťahovania a navrhnite zlepšenia procesu získavania textových dát. +Stretnutie 4.2.2025 + +Stav: + +- Crawler funguje, má web rozhranie + +Úlohy: + +- Pridaje zoznam prioritných webov a blacklist, pridajte preľad štatistík o doménach ((počet navštívených stréno, veľkosč získan=hop textu, počet získaných odkazov interné a externé)) z už získaných dát. +- Zamiešajte zoznam domén. Pridajte možnosť zamerať crawlera na určitý zoznam stránok. +- Snažte sa získať čo najviac textu. Sledujte činnosť crawlera, zobrazte grafy nazbieraného textu, odkazov, navštívených stránok, navštívených domén. + + Stretnutie 18.12.2025