dano 518e06d192 Update 'pages/topics/named-entity/README.md'

2020-08-11 10:20:33 +00:00

2.4 KiB

Raw Blame History

title
Pomenované entity

Pomenované entity

Stretnutia

11.8.2020

Rozdelíme wikicorpus na 100 častí.

Nebudeme riešiť doménový bias vo wikipédii.

Budeme riešiť bias na dĺžku článkov.

Tagová značka asi: LOC, MISC, ORG, PER.

Peter sa pozrie na wikiextraktor.

Daniel:

vyrieši šablóny
vypočíta štatistiky o dĺžke paragrafov
navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.

Úlohy

Príprava dát

Repozitár annotation/wikicorpus

Vstup: Wiki XML dump

Výstup: Množina dokumentov pre anotáciu

urobené:

Parsovanie XML Wiki DUMP
Skript pre extrakciu paragrafov.

urobiť:

Filter pre vyradenie článkov a paragrafov.
Ručný výber článkov.

Príprava anotačnej schémy

Vstup: dataset na anotovanie

Výstup: nasadená a pripravená aplikácia na anotovanie

Repozitár annotation/ner

urobené:

Anotačný recept (Jakub Maruniak)
Deploymment Prodigy (Daniel Hládek)
Konverzia dát do Prodigy (Jakub Maruniak)

urobiť:

Anotačný manuál
Sada značiek na anotáciu
Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
Pripraviť podrobné anotovanie "development" množiny

Prípravná anotačná dávka

Repozitár annotation/database_app

Vstup:

pripravená aplikácia pre anotovanie

Výstup:

prvé anotované dáta
aplikácia pre analýzu anotovaných dát
skript pre spájanie a filtrovanie anotovaných dát

urobené:

nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)

prebieha:

aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)

urobiť:

Anotácia dát
Príprava skriptu na čistenie anotovaných dát

Produkčná anotačná dávka

Vstup: Pripravená aplikácia a dáta na anotovanie

Výstup:

Anotované dáta
korpus

treba urobiť:

Motivácia študentov
Anotácia dát
Analýza anotovaných dát
tvorba korpusu anotovaných dát
Validácia anotovaných dát (anotačná schéma pre validáciu?)

2.4 KiB Raw Blame History

Pomenované entity

Stretnutia

Úlohy

Príprava dát

Príprava anotačnej schémy

Prípravná anotačná dávka

Produkčná anotačná dávka

2.4 KiB

Raw Blame History