dp2021/README.md

671 B

dp2021

Parsovanie wikipédie

  1. Parsovanie bzip2 suboru z skwikidump pomocou nástroja wikiextractor

    Príkaz na použitie nástroja wikiextractor

    python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"

  2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)

[
    "nazov článku": {
        "id článku",
        "url článku",
        "text článku rozdelený do paragrafov",
        "názvy ostatných článkov na ktoré sa článok odkazuje"
    }
]