Update 'README.md'

This commit is contained in:
Tomáš Kuchárik 2020-04-16 11:14:02 +00:00
parent 7031a7cbbe
commit 030dd1b4a1

View File

@ -2,7 +2,7 @@
## Parsovanie wikipédie ## Parsovanie wikipédie
1. Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor) #### Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor)
Príkaz na použitie nástroja wikiextractor Príkaz na použitie nástroja wikiextractor
@ -10,7 +10,7 @@
python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory" python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"
``` ```
2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json) #### Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
```json ```json
[ [