Update 'README.md'

This commit is contained in:
Tomáš Kuchárik 2020-04-16 11:10:48 +00:00
parent e222a9ea63
commit 440f26ede3

View File

@ -5,9 +5,11 @@
1. Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor) 1. Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor)
Príkaz na použitie nástroja wikiextractor Príkaz na použitie nástroja wikiextractor
python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory" python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"
2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json) 2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
```
[ [
"nazov článku": { "nazov článku": {
"id článku", "id článku",
@ -16,3 +18,4 @@
"názvy ostatných článkov na ktoré sa článok odkazuje" "názvy ostatných článkov na ktoré sa článok odkazuje"
} }
] ]
```