2020-04-08 14:02:18 +00:00
# dp2021
2020-04-16 11:01:25 +00:00
## Parsovanie wikipédie
2020-04-16 11:05:18 +00:00
1. Parsovanie bzip2 suboru z [skwikidump ](https://dumps.wikimedia.org/skwiki/20200401/ ) pomocou nástroja [wikiextractor ](https://github.com/attardi/wikiextractor )
2020-04-16 11:01:25 +00:00
2020-04-16 11:09:53 +00:00
Príkaz na použitie nástroja wikiextractor
2020-04-16 11:10:48 +00:00
2020-04-16 11:12:17 +00:00
```
2020-04-16 11:09:53 +00:00
python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"
2020-04-16 11:12:17 +00:00
```
2020-04-16 11:01:25 +00:00
2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
2020-04-16 11:13:07 +00:00
2020-04-16 11:12:17 +00:00
```json
2020-04-16 11:01:25 +00:00
[
2020-04-16 11:13:07 +00:00
"nazov článku":{
2020-04-16 11:01:25 +00:00
"id článku",
"url článku",
"text článku rozdelený do paragrafov",
"názvy ostatných článkov na ktoré sa článok odkazuje"
}
]
2020-04-16 11:10:48 +00:00
```