zpwiki/README.md at 179efb972edf8e79c9f2a2a456bc48e45b53c1fa - zpwiki - KEMT

lp832ut/zpwiki

forked from KEMT/zpwiki

Darius Lindvai 9d21a75d3a update

2020-05-05 20:37:06 +02:00

1.0 KiB

Raw Blame History

Update 05.05.2020

upravený skript "punc.py" tak, že model načítava dáta zo súboru/ov
vytvorený skript "text.py", ktorý upraví dáta do vhodnej podoby (5 krokov)
vytvorený skript "tags.py", ktorý priradí každému symbolu jeden zo štvorice tagov (S, P, C, Q)

Update 09.04.2020

Upravil som vzorový zdrojový kód, ktorý riešil Named-Entity Recognition, tak, aby dopĺňal interpunkciu.
Momentálne to funguje s ručne vpísanými trénovacími dátami a ručným "otagovaním", avšak iba pre bodku a otáznik.
Keď som skúšal použiť dáta, kde bol aj otáznik, ale namiesto otáznika model doplňoval bodku.

vysvetlenie zápisu dát:

v texte som nahradil interpunciu slovami, resp. skratkami ('.' -> 'PER', ',' -> 'COM', '?' -> '.QUE')
sekvencie slov som označil ako "S", nerozlišoval som slovné druhy
interpunkčné znamienka som označil ako "C" (pre čiarku), "P" (pre bodku) a "Q" (pre otáznik)

vysvetlenie výstupu:

Prvý tensor je predikcia modelu pred trénovaním.
Druhý tensor je predikcia po trénovaní.