Update pages/students/2023/yevhenii_medushivskyi/README.md

This commit is contained in:
dano 2026-02-04 12:22:34 +00:00
parent bdd5275dd4
commit baa044d823

View File

@ -24,6 +24,19 @@ Zadanie:
3. Pomocou crawlera získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 3. Pomocou crawlera získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
4. Analyzujte získané dáta, priebeh ich sťahovania a navrhnite zlepšenia procesu získavania textových dát. 4. Analyzujte získané dáta, priebeh ich sťahovania a navrhnite zlepšenia procesu získavania textových dát.
Stretnutie 4.2.2025
Stav:
- Crawler funguje, má web rozhranie
Úlohy:
- Pridaje zoznam prioritných webov a blacklist, pridajte preľad štatistík o doménach ((počet navštívených stréno, veľkosč získan=hop textu, počet získaných odkazov interné a externé)) z už získaných dát.
- Zamiešajte zoznam domén. Pridajte možnosť zamerať crawlera na určitý zoznam stránok.
- Snažte sa získať čo najviac textu. Sledujte činnosť crawlera, zobrazte grafy nazbieraného textu, odkazov, navštívených stránok, navštívených domén.
Stretnutie 18.12.2025 Stretnutie 18.12.2025