dp2021/README.md

697 B

dp2021

Parsovanie wikipédie

Parsovanie bzip2 suboru z skwikidump pomocou nástroja wikiextractor

Príkaz na použitie nástroja wikiextractor

python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"

Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)

[
    "nazov článku":{
        "id článku",
        "url článku",
        "text článku rozdelený do paragrafov",
        "názvy ostatných článkov na ktoré sa článok odkazuje"
    }
]