This commit is contained in:
Daniel Hládek 2025-12-18 10:09:16 +01:00
parent e9776f7b36
commit e69e112900

View File

@ -35,6 +35,7 @@ Stav:
Úlohy:
- Pracujte na textu. Pridajte informácie o korpusoch z https://github.com/slovak-nlp/resources
- Kódy dajte na KEMT GIT
- frontend dajte do osobitného adresára, nie do branch.
- Pridajte možnosť naštartovať a zastaviť workera. Jeden worker by mal fungovať na jednu doménu.
@ -42,6 +43,7 @@ Stav:
- Zobrazte stav pre každú navštívenú doménu. Koľko odkazov bolo navštívených, koľko textu sa získalo, koľko nenavštívených odkazov je načerpaných.
- Zobrazte históriu a plán činnosti pre každého workera - koľko užitočného textu načerpal, koľko odkazov navštívil.
Zásobík úloh:
- Analyzujte získané odkazy pre danú doménu. Odkazy by som rozdelil na tokeny a urobil štatistickú analýzu tokenov.