Update 'pages/topics/named-entity/README.md'

This commit is contained in:
dano 2020-08-11 10:20:33 +00:00
parent 7895dd7ba3
commit 518e06d192

View File

@ -3,6 +3,27 @@ title: Pomenované entity
--- ---
# Pomenované entity # Pomenované entity
## Stretnutia
11.8.2020
Rozdelíme wikicorpus na 100 častí.
Nebudeme riešiť doménový bias vo wikipédii.
Budeme riešiť bias na dĺžku článkov.
Tagová značka asi: LOC, MISC, ORG, PER.
Peter sa pozrie na wikiextraktor.
Daniel:
- vyrieši šablóny
- vypočíta štatistiky o dĺžke paragrafov
- navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.
## Úlohy
### Príprava dát ### Príprava dát
@ -16,10 +37,10 @@ Výstup: Množina dokumentov pre anotáciu
urobené: urobené:
- Parsovanie XML Wiki DUMP - Parsovanie XML Wiki DUMP
- Skript pre extrakciu paragrafov.
urobiť: urobiť:
- Skript pre extrakciu paragrafov.
- Filter pre vyradenie článkov a paragrafov. - Filter pre vyradenie článkov a paragrafov.
- Ručný výber článkov. - Ručný výber článkov.