README.md |
dp2021
Parsovanie wikipédie
- Parsovanie bzip2 suboru z skwikidump pomocou nástroja wikiextractor
..* Príkaz na použitie nástroja wikiextractor ..* python WikiExtractor.py <cesta k bzip2 súboru> -s -l -o <priečinok pre výstupné súbory>
- Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json) [ "nazov článku": { "id článku", "url článku", "text článku rozdelený do paragrafov", "názvy ostatných článkov na ktoré sa článok odkazuje" } ]