From 518e06d192bc8173f06f953fe3fd90d89b8e022d Mon Sep 17 00:00:00 2001 From: dano Date: Tue, 11 Aug 2020 10:20:33 +0000 Subject: [PATCH] Update 'pages/topics/named-entity/README.md' --- pages/topics/named-entity/README.md | 23 ++++++++++++++++++++++- 1 file changed, 22 insertions(+), 1 deletion(-) diff --git a/pages/topics/named-entity/README.md b/pages/topics/named-entity/README.md index faea1362..d01150fa 100644 --- a/pages/topics/named-entity/README.md +++ b/pages/topics/named-entity/README.md @@ -3,6 +3,27 @@ title: Pomenované entity --- # Pomenované entity +## Stretnutia + +11.8.2020 + +Rozdelíme wikicorpus na 100 častí. + +Nebudeme riešiť doménový bias vo wikipédii. + +Budeme riešiť bias na dĺžku článkov. + +Tagová značka asi: LOC, MISC, ORG, PER. + +Peter sa pozrie na wikiextraktor. + +Daniel: + +- vyrieši šablóny +- vypočíta štatistiky o dĺžke paragrafov +- navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku. + +## Úlohy ### Príprava dát @@ -16,10 +37,10 @@ Výstup: Množina dokumentov pre anotáciu urobené: - Parsovanie XML Wiki DUMP +- Skript pre extrakciu paragrafov. urobiť: -- Skript pre extrakciu paragrafov. - Filter pre vyradenie článkov a paragrafov. - Ručný výber článkov.