Go to file
2020-04-16 13:01:25 +02:00
README.md Pridanie parsovacieho nastroja a notebooku pre konvertovanie parsovanych clankov 2020-04-16 13:01:25 +02:00

dp2021

Parsovanie wikipédie

  1. Parsovanie bzip2 suboru zo [https://dumps.wikimedia.org/skwiki/20200401/](slovenského wikidump) pomocou nástroja wikiextractor

Príkaz na použitie nástroja wikiextractor python WikiExtractor.py <cesta k bzip2 súboru> -s -l -o <priečinok pre výstupné súbory>

  1. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json) [ "nazov článku": { "id článku", "url článku", "text článku rozdelený do paragrafov", "názvy ostatných článkov na ktoré sa článok odkazuje" } ]