zpwiki/dp2021 at c3e43cf32ec31ebfd25fd3f3ef43078e652ca17e - zpwiki - KEMT

KEMT/zpwiki

History

Darius Lindvai 9d21a75d3a update		2020-05-05 20:37:06 +02:00
..
punc.py	update	2020-05-05 20:37:06 +02:00
README.md	update	2020-05-05 20:37:06 +02:00
tags.py	update	2020-05-05 20:37:06 +02:00
text.py	update	2020-05-05 20:37:06 +02:00
train.txt	update	2020-05-05 20:37:06 +02:00

README.md

Update 05.05.2020

upravený skript "punc.py" tak, že model načítava dáta zo súboru/ov
vytvorený skript "text.py", ktorý upraví dáta do vhodnej podoby (5 krokov)
vytvorený skript "tags.py", ktorý priradí každému symbolu jeden zo štvorice tagov (S, P, C, Q)

Update 09.04.2020

Upravil som vzorový zdrojový kód, ktorý riešil Named-Entity Recognition, tak, aby dopĺňal interpunkciu.
Momentálne to funguje s ručne vpísanými trénovacími dátami a ručným "otagovaním", avšak iba pre bodku a otáznik.
Keď som skúšal použiť dáta, kde bol aj otáznik, ale namiesto otáznika model doplňoval bodku.

vysvetlenie zápisu dát:

v texte som nahradil interpunciu slovami, resp. skratkami ('.' -> 'PER', ',' -> 'COM', '?' -> '.QUE')
sekvencie slov som označil ako "S", nerozlišoval som slovné druhy
interpunkčné znamienka som označil ako "C" (pre čiarku), "P" (pre bodku) a "Q" (pre otáznik)

vysvetlenie výstupu:

Prvý tensor je predikcia modelu pred trénovaním.
Druhý tensor je predikcia po trénovaní.