| .. | ||
| README.md | ||
| title | published | date | taxonomy | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Adrián Remiáš | true | 01-02-2014 | 
  | 
Adrián Remiáš
Rok začiatku štúdia: 2018
Diplomová práca 2024
Návrh na zadamie:
- Vypracujte prehľad metód obnovy interpunkcie v slovenskom jazyku.
 - Vypracujte prehľad metód jazykového modelovania pomocou neurónovej siete typu Transformer.
 - Pripravte dátovú množinu pre trénovanie a vyhodnotenie neurónovej siete na úlohu dopĺňania a opravy interpunkcie.
 - Vyberte viacero neurónových modelov, natrénujte ich na úlohu dopňĺňania a opravy interpunkcie.
 - Vyhodnoťte experimenty a vyberte najlepší model.
 
Ciele:
- Natrénovanie modelu pre opravu iterpunkcie a jeho vyhodnotenie.
 - Výsledky by mali byť prezentovateľné vo vedeckom článku.
 
Stretnutie 26.10.2023
Stav:
- Štúdium a poznámky podľa pokynov. Vyskúšaná Anaconda a transformers.
 
Úlohy:
- Pokračovať v štúdiu a v poznámkach. To je teoretická časť DP.
 - Na katedrovom gite si vytvorte repozitár s názvom DP2024, do neho dajte kódy pre tvorbu dát a trénovanie siete. Dáta nedávajte na git.
 - Vyberte množinu slovenských textov a upravte ju do podoby vhodnej na trénovanie neurónovej siete. Dáta sa nachádzajú na servri idoc.fei.tuke.sk v /mnt/sharedhome/hladek/bert-train/data/corpus3/. Na ľavej strane bude text bez interpunkcie. Na pravej strane bude len interpunkcia.
 - Natrénujte neurónovú sieť. Množinu rozdeľte na trénovaciu a testovaciu časť. Začneme s modelom SlovakBERT.
 
Zásobník úloh:
- Vyskúšajte iný model ako je Slovak BERT.
 - Pripravte dáta na "čiastočné" dopňlňanie. Skúste identifikovať iba koniec vety. Skúste náhodne "pokaziť" interpunkciu a pomocou neurónovej siete ju opraviť.
 
Stretnutie 5.10.2023
Stav:
- Urobená bakalárska práca na tému "Analýza textu z pohľadu forenznej lingvistiky".
 
Úlohy:
- 
Nainštalujte si balíček Anaconda. Pomocou neho si nainštalujete knižnicu Pytorch s podporou CUDA.
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia pip install transformers - 
Oboznámte sa s frameworkom HuggingFace Transformers. Vypracujte si viacero úvodných tutoriálov.
 - 
Podrobne sa oboznámte s úlohou token classificaton.
 - 
Prečítajte si [článok](https://ieeexplore.ieee.org/abstract/document/9089903 Comparison of Recurrent Neural Networks for Slovak Punctuation Restoration, urobte si poznámky.
 - 
Prečítajte si "Attention is all you need" https://arxiv.org/abs/1706.03762, urobte si poznámky.
 - 
[-] Vyhľadajte heslo "punctuation restoration" na google scholar, poznačte si najdôležitejšie články. Prečítajte si ich a napíšte, akú metódu používaju.
 
Zásobník úloh:
- Vyberte množinu slovenských textov a upravte ju do podoby vhodnej na trénovanie neurónovej siete. Natrénujte neurónovú sieť.
 - Na katedrovom gite si vytvorte repozitár s názvom DP2024, do neho dajte kódy pre tvorbu dát a trénovanie siete. Dáta nedávajte na git.