Pridanie parsovacieho nastroja a notebooku pre konvertovanie parsovanych clankov

This commit is contained in:
Tomáš Kuchárik 2020-04-16 13:01:25 +02:00
parent 68d31c05d9
commit e8c5619687

View File

@ -1,2 +1,18 @@
# dp2021
## Parsovanie wikipédie
1. Parsovanie bzip2 suboru zo [https://dumps.wikimedia.org/skwiki/20200401/](slovenského wikidump) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor)
Príkaz na použitie nástroja wikiextractor
python WikiExtractor.py <cesta k bzip2 súboru> -s -l -o <priečinok pre výstupné súbory>
2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
[
"nazov článku": {
"id článku",
"url článku",
"text článku rozdelený do paragrafov",
"názvy ostatných článkov na ktoré sa článok odkazuje"
}
]