forked from KEMT/zpwiki
Update 'pages/topics/named-entity/README.md'
This commit is contained in:
parent
7895dd7ba3
commit
518e06d192
@ -3,6 +3,27 @@ title: Pomenované entity
|
||||
---
|
||||
|
||||
# Pomenované entity
|
||||
## Stretnutia
|
||||
|
||||
11.8.2020
|
||||
|
||||
Rozdelíme wikicorpus na 100 častí.
|
||||
|
||||
Nebudeme riešiť doménový bias vo wikipédii.
|
||||
|
||||
Budeme riešiť bias na dĺžku článkov.
|
||||
|
||||
Tagová značka asi: LOC, MISC, ORG, PER.
|
||||
|
||||
Peter sa pozrie na wikiextraktor.
|
||||
|
||||
Daniel:
|
||||
|
||||
- vyrieši šablóny
|
||||
- vypočíta štatistiky o dĺžke paragrafov
|
||||
- navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.
|
||||
|
||||
## Úlohy
|
||||
|
||||
### Príprava dát
|
||||
|
||||
@ -16,10 +37,10 @@ Výstup: Množina dokumentov pre anotáciu
|
||||
urobené:
|
||||
|
||||
- Parsovanie XML Wiki DUMP
|
||||
- Skript pre extrakciu paragrafov.
|
||||
|
||||
urobiť:
|
||||
|
||||
- Skript pre extrakciu paragrafov.
|
||||
- Filter pre vyradenie článkov a paragrafov.
|
||||
- Ručný výber článkov.
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user