Update 'README.md'
This commit is contained in:
parent
7031a7cbbe
commit
030dd1b4a1
@ -2,7 +2,7 @@
|
||||
|
||||
## Parsovanie wikipédie
|
||||
|
||||
1. Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor)
|
||||
#### Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor)
|
||||
|
||||
Príkaz na použitie nástroja wikiextractor
|
||||
|
||||
@ -10,7 +10,7 @@
|
||||
python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"
|
||||
```
|
||||
|
||||
2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
|
||||
#### Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
|
||||
|
||||
```json
|
||||
[
|
||||
|
Loading…
Reference in New Issue
Block a user