Compare commits
No commits in common. "e69e1129002fbf318fcc3ea630c640bdd6762ea9" and "fd3665b2c4cd1843f7836647dbb6d556ce900f16" have entirely different histories.
e69e112900
...
fd3665b2c4
@ -23,35 +23,6 @@ Predbežné zadanie:
|
|||||||
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
|
||||||
3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
|
3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
|
||||||
|
|
||||||
Stretnutie 18.12.2025
|
|
||||||
|
|
||||||
Stav:
|
|
||||||
|
|
||||||
- Práca na texte.
|
|
||||||
- Frontend React a Muix,
|
|
||||||
- zatiaľ na https://github.com/yvhdpdngr276/sk_web_crawl1, je tam aj branch frontend
|
|
||||||
- frontend vyzerá ok, ale chýba mu funkcionalita.
|
|
||||||
|
|
||||||
|
|
||||||
Úlohy:
|
|
||||||
|
|
||||||
- Pracujte na textu. Pridajte informácie o korpusoch z https://github.com/slovak-nlp/resources
|
|
||||||
- Kódy dajte na KEMT GIT
|
|
||||||
- frontend dajte do osobitného adresára, nie do branch.
|
|
||||||
- Pridajte možnosť naštartovať a zastaviť workera. Jeden worker by mal fungovať na jednu doménu.
|
|
||||||
- Pridajte zoznam možných domén a algoritmus (naplnenie work qeue) pre výber ďalších domén.
|
|
||||||
- Zobrazte stav pre každú navštívenú doménu. Koľko odkazov bolo navštívených, koľko textu sa získalo, koľko nenavštívených odkazov je načerpaných.
|
|
||||||
- Zobrazte históriu a plán činnosti pre každého workera - koľko užitočného textu načerpal, koľko odkazov navštívil.
|
|
||||||
|
|
||||||
|
|
||||||
Zásobík úloh:
|
|
||||||
|
|
||||||
- Analyzujte získané odkazy pre danú doménu. Odkazy by som rozdelil na tokeny a urobil štatistickú analýzu tokenov.
|
|
||||||
- Pridajte možnost blacklistu pre domény a tokeny v URL
|
|
||||||
- Natrénujte prediktor získaného textu na základe URL (tokenov).
|
|
||||||
- Zobrazte dostupné konfigurácie workerov.
|
|
||||||
|
|
||||||
|
|
||||||
Stretnutie 7.11.2025
|
Stretnutie 7.11.2025
|
||||||
|
|
||||||
Stav:
|
Stav:
|
||||||
|
|||||||
Loading…
Reference in New Issue
Block a user