Go to file
2020-04-16 11:09:53 +00:00
README.md Update 'README.md' 2020-04-16 11:09:53 +00:00

dp2021

Parsovanie wikipédie

  1. Parsovanie bzip2 suboru z skwikidump pomocou nástroja wikiextractor

    Príkaz na použitie nástroja wikiextractor python WikiExtractor.py "cesta k bzip2 súboru" -s -l -o "priečinok pre výstupné súbory"

  2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json) [ "nazov článku": { "id článku", "url článku", "text článku rozdelený do paragrafov", "názvy ostatných článkov na ktoré sa článok odkazuje" } ]