dp2021/README.md

19 lines
661 B
Markdown
Raw Normal View History

2020-04-08 14:02:18 +00:00
# dp2021
## Parsovanie wikipédie
2020-04-16 11:05:18 +00:00
1. Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor)
2020-04-16 11:08:48 +00:00
..* Príkaz na použitie nástroja wikiextractor
..* python WikiExtractor.py <cesta k bzip2 súboru> -s -l -o <priečinok pre výstupné súbory>
2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
[
"nazov článku": {
"id článku",
"url článku",
"text článku rozdelený do paragrafov",
"názvy ostatných článkov na ktoré sa článok odkazuje"
}
]