diff --git a/pages/topics/named-entity/README.md b/pages/topics/named-entity/README.md index faea1362a6..d01150faab 100644 --- a/pages/topics/named-entity/README.md +++ b/pages/topics/named-entity/README.md @@ -3,6 +3,27 @@ title: Pomenované entity --- # Pomenované entity +## Stretnutia + +11.8.2020 + +Rozdelíme wikicorpus na 100 častí. + +Nebudeme riešiť doménový bias vo wikipédii. + +Budeme riešiť bias na dĺžku článkov. + +Tagová značka asi: LOC, MISC, ORG, PER. + +Peter sa pozrie na wikiextraktor. + +Daniel: + +- vyrieši šablóny +- vypočíta štatistiky o dĺžke paragrafov +- navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku. + +## Úlohy ### Príprava dát @@ -16,10 +37,10 @@ Výstup: Množina dokumentov pre anotáciu urobené: - Parsovanie XML Wiki DUMP +- Skript pre extrakciu paragrafov. urobiť: -- Skript pre extrakciu paragrafov. - Filter pre vyradenie článkov a paragrafov. - Ručný výber článkov.