From 440f26ede39673a1a64353d6ca197d05cc8c1904 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Tom=C3=A1=C5=A1=20Kuch=C3=A1rik?= Date: Thu, 16 Apr 2020 11:10:48 +0000 Subject: [PATCH] Update 'README.md' --- README.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/README.md b/README.md index a09b04e..f3cb786 100644 --- a/README.md +++ b/README.md @@ -5,9 +5,11 @@ 1. Parsovanie bzip2 suboru z [skwikidump](https://dumps.wikimedia.org/skwiki/20200401/) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor) Príkaz na použitie nástroja wikiextractor + python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory" 2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json) +``` [ "nazov článku": { "id článku", @@ -16,3 +18,4 @@ "názvy ostatných článkov na ktoré sa článok odkazuje" } ] +```