dp2021/README.md

25 lines
693 B
Markdown

# dp2021
## Parsovanie wikipédie
1. Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor)
Príkaz na použitie nástroja wikiextractor
```
python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"
```
2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
```json
[
"nazov článku":{
"id článku",
"url článku",
"text článku rozdelený do paragrafov",
"názvy ostatných článkov na ktoré sa článok odkazuje"
}
]
```