dmytro_ushatenko/pages/students/2016/jakub_maruniak/dp2021/train_experiments.md

2.1 KiB

Trénovacie experimenty

Do tohto súboru sa budú postupne zapisovať štatistiky a poznámky ku vykonaným trénovacím experimentom.

V rámci experimentu pracujeme s dvomi databázami:

  • Wikiart - vlastná anotovaná databáza článkov. Každý článok = 1 veta.
  • Skner - anotovaná databáza z https://skner.tukekemt.xyz/ . Počet viet v jednotlivých článkoch je rôzny.

Trénovanie Wikiart

  1. Experiment - trénovanie modelu pomocou databázy Wikiart

1.Wikiart

Celkovo 501 článkov.
351 použitých na trénovanie, 150 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 55,55%

Entita Počet anotácii F-skóre
PER 85 41,66%
LOC 240 65,51%
ORG 30 0,0%
MISC 42 44,44%

Trénovanie Skner

  1. Experiment - trénovanie modelu pomocou databázy skner.

2.Skner

Celkovo 488 článkov.
342 použitých na trénovanie, 146 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 60,99%

Entita Počet anotácii F-skóre
PER 376 60,07%
LOC 885 67,39%
ORG 149 42,10%
MISC 80 8,69%

3. Experiment

  1. Experiment - na natrénovanie modelu je využitá kompletná databáza Skner. Na testovanie modelu je využitá databáza Wikiart.

15 iterácii trénovania.
F-skóre natrénovaného modelu: 49,67%

Entita F-skóre
PER 39,08%
LOC 60,99%
ORG 27,77%
MISC 4,44%

4. Experiment

  1. Experiment - Obe databázy sme zlúčili.

4.Merged

Celkovo 989 článkov.
693 použitých na trénovanie, 296 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 61,90%

Entita Počet anotácii F-skóre
PER 461 54,00%
LOC 1125 71,87%
ORG 179 42,00%
MISC 122 18,18%