zpwiki/pages/students/2016/darius_lindvai/dp2021
2020-05-05 20:37:06 +02:00
..
punc.py update 2020-05-05 20:37:06 +02:00
README.md update 2020-05-05 20:37:06 +02:00
tags.py update 2020-05-05 20:37:06 +02:00
text.py update 2020-05-05 20:37:06 +02:00
train.txt update 2020-05-05 20:37:06 +02:00

Update 05.05.2020

  • upravený skript "punc.py" tak, že model načítava dáta zo súboru/ov
  • vytvorený skript "text.py", ktorý upraví dáta do vhodnej podoby (5 krokov)
  • vytvorený skript "tags.py", ktorý priradí každému symbolu jeden zo štvorice tagov (S, P, C, Q)

Update 09.04.2020

  • Upravil som vzorový zdrojový kód, ktorý riešil Named-Entity Recognition, tak, aby dopĺňal interpunkciu.
  • Momentálne to funguje s ručne vpísanými trénovacími dátami a ručným "otagovaním", avšak iba pre bodku a otáznik.
  • Keď som skúšal použiť dáta, kde bol aj otáznik, ale namiesto otáznika model doplňoval bodku.

vysvetlenie zápisu dát:

  • v texte som nahradil interpunciu slovami, resp. skratkami ('.' -> 'PER', ',' -> 'COM', '?' -> '.QUE')
  • sekvencie slov som označil ako "S", nerozlišoval som slovné druhy
  • interpunkčné znamienka som označil ako "C" (pre čiarku), "P" (pre bodku) a "Q" (pre otáznik)

vysvetlenie výstupu:

  • Prvý tensor je predikcia modelu pred trénovaním.
  • Druhý tensor je predikcia po trénovaní.