2020-11-24 12:06:37 +00:00
|
|
|
# Trénovacie experimenty
|
|
|
|
|
|
|
|
Do tohto súboru sa budú postupne zapisovať štatistiky a poznámky ku vykonaným trénovacím experimentom.
|
|
|
|
|
|
|
|
V rámci experimentu pracujeme s dvomi databázami:
|
|
|
|
- Wikiart - vlastná anotovaná databáza článkov. Každý článok = 1 veta.
|
2020-11-24 19:14:32 +00:00
|
|
|
- Skner - anotovaná databáza z https://skner.tukekemt.xyz/ . Počet viet v jednotlivých článkoch je rôzny.
|
2020-11-24 12:06:37 +00:00
|
|
|
### Trénovanie Wikiart
|
|
|
|
1. Experiment - trénovanie modelu pomocou databázy Wikiart
|
|
|
|
|
2020-11-24 12:10:25 +00:00
|
|
|
![1.Wikiart](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/raw/branch/master/pages/students/2016/jakub_maruniak/dp2021/img/1wikiart.PNG)
|
|
|
|
|
|
|
|
Celkovo 501 článkov.
|
|
|
|
351 použitých na trénovanie, 150 na testovanie.
|
|
|
|
15 iterácii trénovania.
|
2020-11-24 12:06:37 +00:00
|
|
|
F-skóre natrénovaného modelu: 55,55%
|
|
|
|
|
|
|
|
| Entita | Počet anotácii | F-skóre |
|
|
|
|
|--|--|--|
|
|
|
|
|PER|85|41,66%|
|
|
|
|
|LOC|240|65,51%|
|
|
|
|
|ORG|30|0,0%|
|
|
|
|
|MISC|42|44,44%|
|
|
|
|
|
|
|
|
|
|
|
|
### Trénovanie Skner
|
|
|
|
2. Experiment - trénovanie modelu pomocou databázy skner.
|
|
|
|
|
2020-11-24 12:10:25 +00:00
|
|
|
![2.Skner](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/raw/branch/master/pages/students/2016/jakub_maruniak/dp2021/img/2skner.PNG)
|
2020-11-24 12:06:37 +00:00
|
|
|
|
2021-01-14 11:00:52 +00:00
|
|
|
1.
|
2020-11-24 12:10:25 +00:00
|
|
|
Celkovo 488 článkov.
|
|
|
|
342 použitých na trénovanie, 146 na testovanie.
|
|
|
|
15 iterácii trénovania.
|
2020-11-24 12:06:37 +00:00
|
|
|
F-skóre natrénovaného modelu: 60,99%
|
|
|
|
|
|
|
|
| Entita | Počet anotácii | F-skóre |
|
|
|
|
|--|--|--|
|
|
|
|
|PER|376|60,07%|
|
|
|
|
|LOC|885|67,39%|
|
|
|
|
|ORG|149|42,10%|
|
2020-11-24 19:14:32 +00:00
|
|
|
|MISC|80|8,69%|
|
|
|
|
|
2021-01-14 11:00:52 +00:00
|
|
|
2.
|
|
|
|
Celkovo 976 článkov.
|
|
|
|
684 použitých na trénovanie, 292 na testovanie.
|
|
|
|
15 iterácii trénovania.
|
|
|
|
F-skóre natrénovaného modelu: 62,9%%
|
|
|
|
|
|
|
|
| Entita | Počet anotácii | F-skóre |
|
|
|
|
|--|--|--|
|
|
|
|
|PER|684|60,68%|
|
|
|
|
|LOC|1417|70,45%|
|
|
|
|
|ORG|280|40,87%|
|
|
|
|
|MISC|416|43,08%|
|
|
|
|
|
|
|
|
|
|
|
|
3.
|
|
|
|
Celkovo 2696 článkov.
|
|
|
|
1871 použitých na trénovanie, 801 na testovanie.
|
|
|
|
15 iterácii trénovania.
|
|
|
|
F-skóre natrénovaného modelu: 70.33%
|
|
|
|
|
|
|
|
| Entita | Počet anotácii | F-skóre |
|
|
|
|
|--|--|--|
|
|
|
|
|PER|1886|71,08%|
|
|
|
|
|LOC|3678|79,01%|
|
|
|
|
|ORG|820|48,81%|
|
|
|
|
|MISC|1171|52,38%|
|
|
|
|
|
|
|
|
|
2020-11-24 19:14:32 +00:00
|
|
|
### 3. Experiment
|
|
|
|
3. Experiment - na natrénovanie modelu je využitá kompletná databáza Skner. Na testovanie modelu je využitá databáza Wikiart.
|
|
|
|
|
2021-01-14 11:00:52 +00:00
|
|
|
1.verzia databázy skner - 488 článkov
|
2020-11-24 19:14:32 +00:00
|
|
|
15 iterácii trénovania.
|
|
|
|
F-skóre natrénovaného modelu: 49,67%
|
|
|
|
|
|
|
|
| Entita | F-skóre |
|
|
|
|
|--|--|
|
|
|
|
|PER|39,08%|
|
|
|
|
|LOC|60,99%|
|
|
|
|
|ORG|27,77%|
|
|
|
|
|MISC|4,44%|
|
|
|
|
|
2021-01-14 11:00:52 +00:00
|
|
|
2.verzia databázy skner - 976 článkov
|
|
|
|
15 iterácii trénovania.
|
|
|
|
F-skóre natrénovaného modelu: 51,08%
|
|
|
|
|
|
|
|
| Entita | F-skóre |
|
|
|
|
|--|--|
|
|
|
|
|PER|38,22%|
|
|
|
|
|LOC|60,83%|
|
|
|
|
|ORG|33,33%|
|
|
|
|
|MISC|30,30%|
|
|
|
|
|
|
|
|
3.verzia databázy skner - 2672 článkov
|
|
|
|
15 iterácii trénovania.
|
|
|
|
F-skóre natrénovaného modelu: 56,26%
|
|
|
|
|
|
|
|
| Entita | F-skóre |
|
|
|
|
|--|--|
|
|
|
|
|PER|45,35%|
|
|
|
|
|LOC|67,25%|
|
|
|
|
|ORG|31,58%|
|
|
|
|
|MISC|39,47%|
|
|
|
|
|
2020-11-24 19:14:32 +00:00
|
|
|
### 4. Experiment
|
|
|
|
4. Experiment - Obe databázy sme zlúčili.
|
|
|
|
|
|
|
|
![4.Merged](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/raw/branch/master/pages/students/2016/jakub_maruniak/dp2021/img/4merged.PNG)
|
|
|
|
|
2021-01-14 11:00:52 +00:00
|
|
|
1. verzia
|
2020-11-24 19:14:32 +00:00
|
|
|
Celkovo 989 článkov.
|
|
|
|
693 použitých na trénovanie, 296 na testovanie.
|
|
|
|
15 iterácii trénovania.
|
|
|
|
F-skóre natrénovaného modelu: 61,90%
|
|
|
|
|
|
|
|
| Entita | Počet anotácii | F-skóre |
|
|
|
|
|--|--|--|
|
|
|
|
|PER|461|54,00%|
|
|
|
|
|LOC|1125|71,87%|
|
|
|
|
|ORG|179|42,00%|
|
2021-01-14 11:00:52 +00:00
|
|
|
|MISC|122|18,18%|
|
|
|
|
|
|
|
|
2. verzia
|
|
|
|
Celkovo 3197 článkov.
|
|
|
|
2222 použitých na trénovanie, 951 na testovanie.
|
|
|
|
15 iterácii trénovania.
|
|
|
|
F-skóre natrénovaného modelu: 70,48%
|
|
|
|
|
|
|
|
| Entita | Počet anotácii | F-skóre |
|
|
|
|
|--|--|--|
|
|
|
|
|PER|1971|69,18%|
|
|
|
|
|LOC|3918|80,52%|
|
|
|
|
|ORG|850|42,33%|
|
|
|
|
|MISC|1213|50,24%|
|