Update pages/students/2023/yevhenii_medushivskyi/README.md
This commit is contained in:
parent
bdd5275dd4
commit
baa044d823
@ -24,6 +24,19 @@ Zadanie:
|
||||
3. Pomocou crawlera získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
||||
4. Analyzujte získané dáta, priebeh ich sťahovania a navrhnite zlepšenia procesu získavania textových dát.
|
||||
|
||||
Stretnutie 4.2.2025
|
||||
|
||||
Stav:
|
||||
|
||||
- Crawler funguje, má web rozhranie
|
||||
|
||||
Úlohy:
|
||||
|
||||
- Pridaje zoznam prioritných webov a blacklist, pridajte preľad štatistík o doménach ((počet navštívených stréno, veľkosč získan=hop textu, počet získaných odkazov interné a externé)) z už získaných dát.
|
||||
- Zamiešajte zoznam domén. Pridajte možnosť zamerať crawlera na určitý zoznam stránok.
|
||||
- Snažte sa získať čo najviac textu. Sledujte činnosť crawlera, zobrazte grafy nazbieraného textu, odkazov, navštívených stránok, navštívených domén.
|
||||
|
||||
|
||||
|
||||
Stretnutie 18.12.2025
|
||||
|
||||
|
||||
Loading…
Reference in New Issue
Block a user