Pridanie parsovacieho nastroja a notebooku pre konvertovanie parsovanych clankov
This commit is contained in:
parent
68d31c05d9
commit
e8c5619687
16
README.md
16
README.md
@ -1,2 +1,18 @@
|
|||||||
# dp2021
|
# dp2021
|
||||||
|
|
||||||
|
## Parsovanie wikipédie
|
||||||
|
|
||||||
|
1. Parsovanie bzip2 suboru zo [https://dumps.wikimedia.org/skwiki/20200401/](slovenského wikidump) pomocou nástroja [wikiextractor](https://github.com/attardi/wikiextractor)
|
||||||
|
|
||||||
|
Príkaz na použitie nástroja wikiextractor
|
||||||
|
python WikiExtractor.py <cesta k bzip2 súboru> -s -l -o <priečinok pre výstupné súbory>
|
||||||
|
|
||||||
|
2. Prerobenie 232 453 rozparsovaných článkov do formátu json (kvôli jednoduchšej práce s formátom json)
|
||||||
|
[
|
||||||
|
"nazov článku": {
|
||||||
|
"id článku",
|
||||||
|
"url článku",
|
||||||
|
"text článku rozdelený do paragrafov",
|
||||||
|
"názvy ostatných článkov na ktoré sa článok odkazuje"
|
||||||
|
}
|
||||||
|
]
|
||||||
|
Loading…
Reference in New Issue
Block a user