Update 'slovak_punction2.py'

2024-01-03 08:56:32 +00:00 · 2024-01-03 08:56:32 +00:00 · eec002d873
commit eec002d873
parent 2ae4f9ed63
1 changed files with 0 additions and 46 deletions
--- a/slovak_punction2.py
+++ b/slovak_punction2.py
@ -12,52 +12,6 @@ import re

 nltk.download('punkt')

-text="text pre trenovanie neuronovej siete"
-
-# Example: tokenizing a list of text strings
-texts = sent_tokenize(text , "slovene")
-encodings = tokenizer(texts, truncation=True, padding='max_length', max_length=512)
-
-import torch
-
-class MLM_Dataset(torch.utils.data.Dataset):
-    def __init__(self, encodings):
-        self.encodings = encodings
-
-    def __len__(self):
-        return len(self.encodings['input_ids'])
-
-    def __getitem__(self, idx):
-        return {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
-
-dataset = MLM_Dataset(encodings)
-
-from transformers import DataCollatorForLanguageModeling
-
-data_collator = DataCollatorForLanguageModeling(
-    tokenizer=tokenizer, mlm=True, mlm_probability=0.15
-)
-
-from torch.utils.data import DataLoader
-
-dataloader = DataLoader(dataset, batch_size=16, shuffle=True, collate_fn=data_collator)
-
-from transformers import AdamW
-
-optimizer = AdamW(model.parameters(), lr=5e-5)
-
-epochs = 1
-for epoch in range(epochs):
-    model.train()
-    for batch in dataloader:
-        optimizer.zero_grad()
-        outputs = model(**{k: v.to(model.device) for k, v in batch.items()})
-        loss = outputs.loss
-        loss.backward()
-        optimizer.step()
-
-model.save_pretrained('path/to/save/model')
-
 input="ako sa voláš"

 def restore_pun(text):