diff --git a/pages/students/2023/yevhenii_medushivskyi/README.md b/pages/students/2023/yevhenii_medushivskyi/README.md index 2405ec6f..cd1a3a38 100644 --- a/pages/students/2023/yevhenii_medushivskyi/README.md +++ b/pages/students/2023/yevhenii_medushivskyi/README.md @@ -23,6 +23,31 @@ Predbežné zadanie: 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. +Stretnutie 9.10.2025 + +Stav: + +- Pridané skripty pre pridanie hplt2 +- Prečítané Web Mining and Text mining - vypracované poznámky. +- Preštudované Docker. + +Úlohy: + +- Pozrite sa na HPLT3. +- Pozrite sa na https://github.com/lc/gau +- Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu. +- Zistite na čo je súbor robots.txt. +- Zistite, ako nasadiť aplikáciu pomocou Docker Compose. +- Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...) +- Mal by mať časť, ktorá sa zameriava na určité stránky (média, noviny, blogy, doménové stránky ) a časť ktorá zísava texty zo "statických" stránok. +- Mal by byť schopný sa vyhnúť "nekvalitným" stránkam - eshopom, "nevhodnému" obsahu. Mal by vedieť ohodnotiť "kvalitu" získaného textu. +- Crawler by mal mať webové rozhranie pre prehľad o jeho činnosti a výsledkoch. +- Kódy posielajte na katedrový git. +- Píšte si poznámky. Vypracujte prehľad existujúcich crawlerov a odborných článkov o text mining. Použite google scholar. + +Zásobník úloh + + Stretnutie 20.8.2025 Stav: