3.3 KiB
Trénovacie experimenty
Do tohto súboru sa budú postupne zapisovať štatistiky a poznámky ku vykonaným trénovacím experimentom.
V rámci experimentu pracujeme s dvomi databázami:
- Wikiart - vlastná anotovaná databáza článkov. Každý článok = 1 veta.
- Skner - anotovaná databáza z https://skner.tukekemt.xyz/ . Počet viet v jednotlivých článkoch je rôzny.
Trénovanie Wikiart
- Experiment - trénovanie modelu pomocou databázy Wikiart
Celkovo 501 článkov.
351 použitých na trénovanie, 150 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 55,55%
| Entita | Počet anotácii | F-skóre |
|---|---|---|
| PER | 85 | 41,66% |
| LOC | 240 | 65,51% |
| ORG | 30 | 0,0% |
| MISC | 42 | 44,44% |
Trénovanie Skner
- Experiment - trénovanie modelu pomocou databázy skner.
Celkovo 488 článkov.
342 použitých na trénovanie, 146 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 60,99%
| Entita | Počet anotácii | F-skóre |
|---|---|---|
| PER | 376 | 60,07% |
| LOC | 885 | 67,39% |
| ORG | 149 | 42,10% |
| MISC | 80 | 8,69% |
Celkovo 976 článkov.
684 použitých na trénovanie, 292 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 62,9%%
| Entita | Počet anotácii | F-skóre |
|---|---|---|
| PER | 684 | 60,68% |
| LOC | 1417 | 70,45% |
| ORG | 280 | 40,87% |
| MISC | 416 | 43,08% |
Celkovo 2696 článkov.
1871 použitých na trénovanie, 801 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 70.33%
| Entita | Počet anotácii | F-skóre |
|---|---|---|
| PER | 1886 | 71,08% |
| LOC | 3678 | 79,01% |
| ORG | 820 | 48,81% |
| MISC | 1171 | 52,38% |
3. Experiment
- Experiment - na natrénovanie modelu je využitá kompletná databáza Skner. Na testovanie modelu je využitá databáza Wikiart.
1.verzia databázy skner - 488 článkov
15 iterácii trénovania.
F-skóre natrénovaného modelu: 49,67%
| Entita | F-skóre |
|---|---|
| PER | 39,08% |
| LOC | 60,99% |
| ORG | 27,77% |
| MISC | 4,44% |
2.verzia databázy skner - 976 článkov
15 iterácii trénovania.
F-skóre natrénovaného modelu: 51,08%
| Entita | F-skóre |
|---|---|
| PER | 38,22% |
| LOC | 60,83% |
| ORG | 33,33% |
| MISC | 30,30% |
3.verzia databázy skner - 2672 článkov
15 iterácii trénovania.
F-skóre natrénovaného modelu: 56,26%
| Entita | F-skóre |
|---|---|
| PER | 45,35% |
| LOC | 67,25% |
| ORG | 31,58% |
| MISC | 39,47% |
4. Experiment
- Experiment - Obe databázy sme zlúčili.
- verzia
Celkovo 989 článkov.
693 použitých na trénovanie, 296 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 61,90%
| Entita | Počet anotácii | F-skóre |
|---|---|---|
| PER | 461 | 54,00% |
| LOC | 1125 | 71,87% |
| ORG | 179 | 42,00% |
| MISC | 122 | 18,18% |
- verzia
Celkovo 3197 článkov.
2222 použitých na trénovanie, 951 na testovanie.
15 iterácii trénovania.
F-skóre natrénovaného modelu: 70,48%
| Entita | Počet anotácii | F-skóre |
|---|---|---|
| PER | 1971 | 69,18% |
| LOC | 3918 | 80,52% |
| ORG | 850 | 42,33% |
| MISC | 1213 | 50,24% |