From 9ddf17ab0c2c2e44a58184342dbe582b43455b28 Mon Sep 17 00:00:00 2001 From: Jakub Maruniak Date: Mon, 2 Nov 2020 11:11:29 +0000 Subject: [PATCH] =?UTF-8?q?Aktualizovat=20=E2=80=9Epages/students/2016/jak?= =?UTF-8?q?ub=5Fmaruniak/dp2021/README.md=E2=80=9C?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- pages/students/2016/jakub_maruniak/dp2021/README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/pages/students/2016/jakub_maruniak/dp2021/README.md b/pages/students/2016/jakub_maruniak/dp2021/README.md index c23e236f..34bbf23d 100644 --- a/pages/students/2016/jakub_maruniak/dp2021/README.md +++ b/pages/students/2016/jakub_maruniak/dp2021/README.md @@ -3,6 +3,13 @@ Stav: - aktualizácia anotačnej schémy (jedná sa o testovaciu schému s vlastnými dátami) - vykonaných niekoľko anotácii, trénovanie v Prodigy - nízka presnosť = malé množstvo anotovaných dát. Trénovanie v spacy zatiaľ nefunguje. - Štatistiky o množstve prijatých a odmietnutých anotácii získame z Prodigy: prodigy stats wikiart. Zatiaľ 156 anotácii (151 accept, 5 reject). Na získanie prehľadu o množstve anotácii jednotlivých entít potrebujeme vytvoriť skript. +- Prehľad literatúry Named Entity Corpus + - Budovanie korpusu pre NER – automatické vytvorenie už anotovaného korpusu z Wiki pomocou DBpedia – jedná sa o anglický korpus, ale možno spomenúť v porovnaní postupov + - Building a Massive Corpus for Named Entity Recognition using Free Open Data Sources - Daniel Specht Menezes, Pedro Savarese, Ruy L. Milidiú + - Porovnanie postupov pre anotáciu korpusu (z hľadiska presnosti aj času) - Manual, SemiManual + - Comparison of Annotating Methods for Named Entity Corpora - Kanako Komiya, Masaya Suzuki + - Čo je korpus, vývojový cyklus, analýza korpusu (Už využitá literatúra – cyklus MATTER) + - Natural Language Annotation for Machine Learning – James Pustejovsky, Amber Stubbs ## Diplomový projekt 1 2020