forked from KEMT/zpwiki
Update 'pages/topics/named-entity/README.md'
This commit is contained in:
parent
7895dd7ba3
commit
518e06d192
@ -3,6 +3,27 @@ title: Pomenované entity
|
|||||||
---
|
---
|
||||||
|
|
||||||
# Pomenované entity
|
# Pomenované entity
|
||||||
|
## Stretnutia
|
||||||
|
|
||||||
|
11.8.2020
|
||||||
|
|
||||||
|
Rozdelíme wikicorpus na 100 častí.
|
||||||
|
|
||||||
|
Nebudeme riešiť doménový bias vo wikipédii.
|
||||||
|
|
||||||
|
Budeme riešiť bias na dĺžku článkov.
|
||||||
|
|
||||||
|
Tagová značka asi: LOC, MISC, ORG, PER.
|
||||||
|
|
||||||
|
Peter sa pozrie na wikiextraktor.
|
||||||
|
|
||||||
|
Daniel:
|
||||||
|
|
||||||
|
- vyrieši šablóny
|
||||||
|
- vypočíta štatistiky o dĺžke paragrafov
|
||||||
|
- navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.
|
||||||
|
|
||||||
|
## Úlohy
|
||||||
|
|
||||||
### Príprava dát
|
### Príprava dát
|
||||||
|
|
||||||
@ -16,10 +37,10 @@ Výstup: Množina dokumentov pre anotáciu
|
|||||||
urobené:
|
urobené:
|
||||||
|
|
||||||
- Parsovanie XML Wiki DUMP
|
- Parsovanie XML Wiki DUMP
|
||||||
|
- Skript pre extrakciu paragrafov.
|
||||||
|
|
||||||
urobiť:
|
urobiť:
|
||||||
|
|
||||||
- Skript pre extrakciu paragrafov.
|
|
||||||
- Filter pre vyradenie článkov a paragrafov.
|
- Filter pre vyradenie článkov a paragrafov.
|
||||||
- Ručný výber článkov.
|
- Ručný výber článkov.
|
||||||
|
|
||||||
|
Loading…
Reference in New Issue
Block a user