From a3194eb1a3aca6daa4a407525070ebf7fa210eb8 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Thu, 18 Dec 2025 09:59:00 +0100 Subject: [PATCH] zz --- .../2023/yevhenii_medushivskyi/README.md | 26 +++++++++++++++++++ 1 file changed, 26 insertions(+) diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index 978f685726..8295ddbbb6 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -23,6 +23,32 @@ Predbežné zadanie: 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu. +Stretnutie 18.12.2025 + +Stav: + +- Práca na texte. +- Frontend React a Muix, +- zatiaľ na https://github.com/yvhdpdngr276/sk_web_crawl1, je tam aj branch frontend +- frontend vyzerá ok, ale chýba mu funkcionalita. + + +Úlohy: + +- Kódy dajte na KEMT GIT +- frontend dajte do osobitného adresára, nie do branch. +- Zobrazte dostupné konfigurácie workerov. +- Pridajte možnosť naštartovať a zastaviť workera so zadanou konfiguráciou. Jeden worker by mal fungovať na jednu doménu. +- Pridajte zoznam možných domén a algoritmus (naplnenie work qeue) pre výber ďalších domén. +- Zobrazte stav pre každú navštívenú doménu. Koľko odkazov bolo navštívených, koľko textu sa získalo, koľko nenavštívených odkazov je načerpaných. +- Zobrazte históriu a plán činnosti pre každého workera - koľko užitočného textu načerpal, koľko odkazov navštívil. + +Zásobík úloh: + +- Analyzujte získané odkazy pre danú doménu. Odkazy by som rozdelil na tokeny a urobil štatistickú analýzu tokenov. +- Pridajte možnost blacklistu pre domény a tokeny v URL +- Natrénujte prediktor získaného textu na základe URL (tokenov). + Stretnutie 7.11.2025 Stav: