zpwiki/pages/students/2018/adrian_remias/README.md
2023-10-05 09:43:18 +02:00

2.2 KiB

title published date taxonomy
Adrián Remiáš true 01-02-2014
category tag author
dp2024
nlp
transformers
interpuction
Daniel Hladek

Adrián Remiáš

Rok začiatku štúdia: 2018

Diplomová práca 2024

Návrh na zadamie:

  • Vypracujte prehľad metód obnovy interpunkcie v slovenskom jazyku.
  • Vypracujte prehľad metód jazykového modelovania pomocou neurónovej siete typu Transformer.
  • Pripravte dátovú množinu pre trénovanie a vyhodnotenie neurónovej siete na úlohu dopĺňania a opravy interpunkcie.
  • Vyberte viacero neurónových modelov, natrénujte ich na úlohu dopňĺňania a opravy interpunkcie.
  • Vyhodnoťte experimenty a vyberte najlepší model.

Ciele:

  • Natrénovanie modelu pre opravu iterpunkcie a jeho vyhodnotenie.
  • Výsledky by mali byť prezentovateľné vo vedeckom článku.

Stretnutie 5.10.2023

Stav:

  • Urobená bakalárska práca na tému "Analýza textu z pohľadu forenznej lingvistiky".

Úlohy:

  • Nainštalujte si balíček Anaconda. Pomocou neho si nainštalujete knižnicu Pytorch s podporou CUDA.

     conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
     pip install transformers
    
  • Oboznámte sa s frameworkom HuggingFace Transformers. Vypracujte si viacero úvodných tutoriálov.

  • Podrobne sa oboznámte s úlohou token classificaton.

  • Prečítajte si [článok](https://ieeexplore.ieee.org/abstract/document/9089903 Comparison of Recurrent Neural Networks for Slovak Punctuation Restoration, urobte si poznámky.

  • Prečítajte si "Attention is all you need" https://arxiv.org/abs/1706.03762, urobte si poznámky.

  • Vyhľadajte heslo "punctuation restoration" na google scholar, poznačte si najdôležitejšie články. Prečítajte si ich a napíšte, akú metódu používaju.

Zásobník úloh:

  • Vyberte množinu slovenských textov a upravte ju do podoby vhodnej na trénovanie neurónovej siete. Natrénujte neurónovú sieť.
  • Na katedrovom gite si vytvorte repozitár s názvom DP2024, do neho dajte kódy pre tvorbu dát a trénovanie siete. Dáta nedávajte na git.