This commit is contained in:
Daniel Hládek 2025-10-09 10:43:53 +02:00
parent 0c36a39dce
commit 5146aa1523

View File

@ -21,7 +21,7 @@ Predbežné zadanie:
1. Vypracujte prehľad webových korpusov a metód ich tvorby.
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu.
3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
Stretnutie 9.10.2025
@ -35,7 +35,6 @@ Stav:
- Pozrite sa na HPLT3.
- Pozrite sa na https://github.com/lc/gau
- Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
- Zistite na čo je súbor robots.txt.
- Zistite, ako nasadiť aplikáciu pomocou Docker Compose.
- Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...)