Update 'README.md'

This commit is contained in:
Tomáš Kuchárik 2020-04-16 11:08:48 +00:00
parent 2a001aba28
commit 64f1e0e0a6

View File

@ -4,8 +4,8 @@
1. Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor) 1. Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor)
Príkaz na použitie nástroja wikiextractor ..* Príkaz na použitie nástroja wikiextractor
python WikiExtractor.py <cesta k bzip2 súboru> -s -l -o <priečinok pre výstupné súbory> ..* python WikiExtractor.py <cesta k bzip2 súboru> -s -l -o <priečinok pre výstupné súbory>
2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json) 2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
[ [