Update pages/students/2023/yevhenii_medushivskyi/README.md
This commit is contained in:
parent
bdd5275dd4
commit
baa044d823
@ -24,6 +24,19 @@ Zadanie:
|
|||||||
3. Pomocou crawlera získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
3. Pomocou crawlera získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
||||||
4. Analyzujte získané dáta, priebeh ich sťahovania a navrhnite zlepšenia procesu získavania textových dát.
|
4. Analyzujte získané dáta, priebeh ich sťahovania a navrhnite zlepšenia procesu získavania textových dát.
|
||||||
|
|
||||||
|
Stretnutie 4.2.2025
|
||||||
|
|
||||||
|
Stav:
|
||||||
|
|
||||||
|
- Crawler funguje, má web rozhranie
|
||||||
|
|
||||||
|
Úlohy:
|
||||||
|
|
||||||
|
- Pridaje zoznam prioritných webov a blacklist, pridajte preľad štatistík o doménach ((počet navštívených stréno, veľkosč získan=hop textu, počet získaných odkazov interné a externé)) z už získaných dát.
|
||||||
|
- Zamiešajte zoznam domén. Pridajte možnosť zamerať crawlera na určitý zoznam stránok.
|
||||||
|
- Snažte sa získať čo najviac textu. Sledujte činnosť crawlera, zobrazte grafy nazbieraného textu, odkazov, navštívených stránok, navštívených domén.
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
Stretnutie 18.12.2025
|
Stretnutie 18.12.2025
|
||||||
|
|
||||||
|
|||||||
Loading…
Reference in New Issue
Block a user