README.md |
dp2021
Parsovanie wikipédie
-
Parsovanie bzip2 suboru z skwikidump pomocou nástroja wikiextractor
Príkaz na použitie nástroja wikiextractor
python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"
-
Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
[
"nazov článku":{
"id článku",
"url článku",
"text článku rozdelený do paragrafov",
"názvy ostatných článkov na ktoré sa článok odkazuje"
}
]