# dp2021 ## Parsovanie wikipédie #### Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor) Príkaz na použitie nástroja wikiextractor ``` python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory" ``` #### Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json) ```json [ "nazov článku":{ "id článku", "url článku", "text článku rozdelený do paragrafov", "názvy ostatných článkov na ktoré sa článok odkazuje" } ] ```