Go to file
2020-04-16 13:18:04 +02:00
wikiextractor Pridanie parsovacieho nastroja a notebooku pre konvertovanie parsovanych clankov 2020-04-16 13:18:04 +02:00
.gitignore Pridanie parsovacieho nastroja a notebooku pre konvertovanie parsovanych clankov 2020-04-16 13:18:04 +02:00
bz2tojson.ipynb Pridanie parsovacieho nastroja a notebooku pre konvertovanie parsovanych clankov 2020-04-16 13:18:04 +02:00
README.md Update 'README.md' 2020-04-16 11:14:02 +00:00

dp2021

Parsovanie wikipédie

Parsovanie bzip2 suboru z skwikidump pomocou nástroja wikiextractor

Príkaz na použitie nástroja wikiextractor

python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"

Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)

[
    "nazov článku":{
        "id článku",
        "url článku",
        "text článku rozdelený do paragrafov",
        "názvy ostatných článkov na ktoré sa článok odkazuje"
    }
]