zpwiki/pages/students/2016/jakub_maruniak/dp2021/train_experiments/README.md

3.3 KiB

Trénovacie experimenty

Do tohto súboru sa budú postupne zapisovať štatistiky a poznámky ku vykonaným trénovacím experimentom.

V rámci experimentu pracujeme s dvomi databázami:

  • Wikiart - vlastná anotovaná databáza článkov. Každý článok = 1 veta.
  • Skner - anotovaná databáza z https://skner.tukekemt.xyz/ . Počet viet v jednotlivých článkoch je rôzny.

Trénovanie Wikiart

  1. Experiment - trénovanie modelu pomocou databázy Wikiart

1.Wikiart

Celkovo 501 článkov.
351 použitých na trénovanie, 150 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 55,55%

Entita Počet anotácii F-skóre
PER 85 41,66%
LOC 240 65,51%
ORG 30 0,0%
MISC 42 44,44%

Trénovanie Skner

  1. Experiment - trénovanie modelu pomocou databázy skner.

2.Skner

Celkovo 488 článkov.
342 použitých na trénovanie, 146 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 60,99%

Entita Počet anotácii F-skóre
PER 376 60,07%
LOC 885 67,39%
ORG 149 42,10%
MISC 80 8,69%

Celkovo 976 článkov.
684 použitých na trénovanie, 292 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 62,9%%

Entita Počet anotácii F-skóre
PER 684 60,68%
LOC 1417 70,45%
ORG 280 40,87%
MISC 416 43,08%

Celkovo 2696 článkov.
1871 použitých na trénovanie, 801 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 70.33%

Entita Počet anotácii F-skóre
PER 1886 71,08%
LOC 3678 79,01%
ORG 820 48,81%
MISC 1171 52,38%

3. Experiment

  1. Experiment - na natrénovanie modelu je využitá kompletná databáza Skner. Na testovanie modelu je využitá databáza Wikiart.

1.verzia databázy skner - 488 článkov 15 iterácii trénovania.
F-skóre natrénovaného modelu: 49,67%

Entita F-skóre
PER 39,08%
LOC 60,99%
ORG 27,77%
MISC 4,44%

2.verzia databázy skner - 976 článkov 15 iterácii trénovania.
F-skóre natrénovaného modelu: 51,08%

Entita F-skóre
PER 38,22%
LOC 60,83%
ORG 33,33%
MISC 30,30%

3.verzia databázy skner - 2672 článkov 15 iterácii trénovania.
F-skóre natrénovaného modelu: 56,26%

Entita F-skóre
PER 45,35%
LOC 67,25%
ORG 31,58%
MISC 39,47%

4. Experiment

  1. Experiment - Obe databázy sme zlúčili.

4.Merged

  1. verzia Celkovo 989 článkov.
    693 použitých na trénovanie, 296 na testovanie.
    15 iterácii trénovania.
    F-skóre natrénovaného modelu: 61,90%
Entita Počet anotácii F-skóre
PER 461 54,00%
LOC 1125 71,87%
ORG 179 42,00%
MISC 122 18,18%
  1. verzia Celkovo 3197 článkov.
    2222 použitých na trénovanie, 951 na testovanie.
    15 iterácii trénovania.
    F-skóre natrénovaného modelu: 70,48%
Entita Počet anotácii F-skóre
PER 1971 69,18%
LOC 3918 80,52%
ORG 850 42,33%
MISC 1213 50,24%