This commit is contained in:
Daniel Hládek 2025-10-09 10:43:53 +02:00
parent 0c36a39dce
commit 5146aa1523

View File

@ -21,7 +21,7 @@ Predbežné zadanie:
1. Vypracujte prehľad webových korpusov a metód ich tvorby. 1. Vypracujte prehľad webových korpusov a metód ich tvorby.
2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény. 2. Získajte dáta z internetu a vytvorte korpus dát pre viaceré domény.
3. Využite získané dáta na tvorbu doménovo orientovaného jazykového modelu. 3. Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
Stretnutie 9.10.2025 Stretnutie 9.10.2025
@ -35,7 +35,6 @@ Stav:
- Pozrite sa na HPLT3. - Pozrite sa na HPLT3.
- Pozrite sa na https://github.com/lc/gau - Pozrite sa na https://github.com/lc/gau
- Vytvorte a nasadte webový crawler pre sledovanie a sťahovanie slovenského internetu.
- Zistite na čo je súbor robots.txt. - Zistite na čo je súbor robots.txt.
- Zistite, ako nasadiť aplikáciu pomocou Docker Compose. - Zistite, ako nasadiť aplikáciu pomocou Docker Compose.
- Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...) - Na tvorbu vyberte vhodné nástroje - Django , Docker, Flask. Work Queue (beanstalkd, Celery, iné...)