Update 'README.md'
This commit is contained in:
parent
e222a9ea63
commit
440f26ede3
@ -5,9 +5,11 @@
|
|||||||
1. Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor)
|
1. Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor)
|
||||||
|
|
||||||
Príkaz na použitie nástroja wikiextractor
|
Príkaz na použitie nástroja wikiextractor
|
||||||
|
|
||||||
python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"
|
python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"
|
||||||
|
|
||||||
2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
|
2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
|
||||||
|
```
|
||||||
[
|
[
|
||||||
"nazov článku": {
|
"nazov článku": {
|
||||||
"id článku",
|
"id článku",
|
||||||
@ -16,3 +18,4 @@
|
|||||||
"názvy ostatných článkov na ktoré sa článok odkazuje"
|
"názvy ostatných článkov na ktoré sa článok odkazuje"
|
||||||
}
|
}
|
||||||
]
|
]
|
||||||
|
```
|
||||||
|
Loading…
Reference in New Issue
Block a user