Tento projekt je implementovaný tak, že samostatné skripty nezávisia jeden od druhého a môžu sa používať samostatne. Zdrojové kódy boli implementované v jazyku Python 3.6.10. Keras bol použitý na implementáciu ako hlavná knižnica.
Zdrojové súbory:
• Create_data.py
• Create Model.py
• Generate.py
• Create_data_2.py
• Perplexity.py
• requirements.txt
## Create_data.py
Tento skript prijíma ako vstup súbor „input_data.txt“ obsahujúci textové údaje na trénovanie.
Po dokončení sa vytvorí súbor „char_sequences.txt“ obsahujúci postupnosti znakov zo vstupného súboru.
### Procesy
• Otvorenie a čítanie súboru. To sa vykonáva pomocou funkcie load_doc().
• Ďalšou fázou je príprava údajov. Počas prípravy sa z údajov odstránia všetky špeciálne znaky okrem medzier. Ďalej všetky ostatné znaky prevedené na malé písmená.
out = ""
for sim in raw_text:
if 97 <= ord(sim.lower()) <= 122 or sim.lower() == ' ' or sim.lower() == '\n':
out = out + sim.lower()
raw_text = out
tokens = raw_text.split()
raw_text = ' '.join(tokens)
• Z vyčistených údajov sa vytvoria postupnosti znakov. length - dĺžka sekvencie.
length = 10
sequences = list()
for i in range(length, len(raw_text)):
# select sequence of tokens
seq = raw_text[i - length:i + 1]
# store
sequences.append(seq)
• Hotové sekvencie sa uložia do súboru „char_sequences.txt“.
## Create_Model.py
V tomto skripte sa vytvorí model a začína sa učenie neurónovej siete. Na vstupe skript dostane sekvenčný súbor „char_sequences.txt“. Na konci práce sa vytvoria dva súbory "model.h5" a "mapping.pkl". Vytvorí sa tiež súbor “log.csv”, v ktorom sa uložia výsledky metrík pre trénovanie.
### Procesy
• Otvorenie a čítanie súboru. Vytvorí sa zoznam sekvencií.
in_filename = 'char_sequences.txt'
raw_text = load_doc(in_filename)
lines = raw_text.split('\n')
• Kódovanie, priradenie celočíselnej hodnoty každému pôvodnému znaku.
chars = sorted(list(set(raw_text)))
mapping = dict((c, i) for i, c in enumerate(chars))
sequences = list()
for line in lines:
# integer encode line
encoded_seq = [mapping[char] for char in line]
# store
sequences.append(encoded_seq)
• One-hot kódovanie.
sequences = [to_categorical(x, num_classes=vocab_size) for x in X]
• Tvorba modelu. Implementácia vrstiev, výber aktivačnej funkcie a početu neurónov.
model.fit(X, y, epochs=30, verbose=2, callbacks=[csv_logger])
• Mapovanie a model sa uložia.
model.save('model.h5')
dump(mapping, open('mapping.pkl', 'wb'))
## Generate.py
Tento skript generuje postupnosť znakov. Na vstupe sú dva súbory „model.h5“ a „mapping.pkl“, obsahujú stav vyškolenej natrénovanej siete a mapovanie (kódovanie znakov celočíselnými údajmi). Výstupom tohto skriptu sú vygenerované postupnosti znakov.
Tento skript obsahuje hlavnú funkciu „ generate_seq “, v ktorej sa uskutočňujú vyššie opísané procesy na kódovanie znakov a inverzné procesy na dekódovanie znakov. Na generovanie symbolov sa používa funkcia knižnice Keras „model.predict_classes“.
## Create_data_2.py
Tento skript sa podobá na Create_data.py s jedným rozdielom, výsledkom budú pravidelné sekvencie, nie n-gramové sekvencie.
## Perplexity.py
Účelom tohto skriptu je počítať perplexitu. Na vstupe tohto skriptu sú dva súbory "gen_seq.txt" a "test_seq.txt", obsahujúce sekvencie generované pomocou skriptu Create_data_2.py.
### Procesy
• Odovzdanie súboru a jeho One-hot kódovanie.
def input_tensor(in_filename):
# in_filename = 'char_sequences_1.txt'
raw_text = load_doc(in_filename)
lines = raw_text.split('\n')
# integer encode sequences of characters
chars = sorted(list(set(raw_text)))
mapping = dict((c, i) for i, c in enumerate(chars))
sequences = list()
for line in lines:
# integer encode line
encoded_seq = [mapping[char] for char in line]
# store
sequences.append(encoded_seq)
vocab_size = len(mapping)
print('Vocabulary Size: %d' % vocab_size)
# separate into input and output
sequences = array(sequences)
X = sequences[:, :-1]
sequences = [to_categorical(x, num_classes=vocab_size) for x in X]