zpwiki/pages/students/2016/darius_lindvai/README.md

115 lines
3.6 KiB
Markdown

# Dárius Lindvai
*Rok začiatku štúdia:* 2016
## Diplomový projekt 2 2020
Virtuálne stretnutie 25.9.2020
Urobené:
- skript pre vyhodnotenie experimentov
Úlohy do ďalšieho stretnutia:
- vykonať a vyhodnotiť experimenty
- Zvážiť publikovanie na http://conf.uni-obuda.hu/sami2021/paper.html
- napísať draft na min. 4 strany s teóriou, experimantami aj bibliografipou. Môže byť aj po slovensky, potom to preložíme do nagličtiny.
## Diplomový projekt 2020
[Výstupy](dp2021)
Úlohy na diplomový projekt:
- 1. Vybrať a pripraviť dátovú množinu na natrénovanie
- 2. Vybrať a implementovať neurónovú sieť
- 3. Vykonať sadu experimentov na overenie presnosti klasifikácie zvolenej neurónovej siete
Názov: Obnovenie interpunkcie pomocou neurónových sietí
1. Vypracujte prehľad metód na obnovenie interpunkcie pomocou neurónových sietí.
2. Vyberte vhodnú metódu obnovenia interpunkcie pomocou neurónových sietí.
3. Pripravte množinu dát na trénovanie neurónovej siete, navrhnite a vykonajte sadu experimentov s rôznymi parametrami.
4. Vyhodnoťte experimenty a navrhnite možné zlepšenia.
## Zápis o činnosti
Virtuálne stretnutie 26.6.
Urobené:
- Trénovanie modelu BiLSTM+CFR a jeho vyhodnotenie Precision Recall pre každú triedu
Treba urobiť:
- Vyhodnotenie na testovacej množine
- Doplnenie skriptu pre prípravu dát
- Krátky záznam o experimentoch - stručný opis nastavenia, dát a záznam výsledkov.
Virtuálne stretnutie 14.5.2020:
Prebrali sme premenu [Pytorch Tensor na NumPy Maticu](https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html)
- Pokračuje práca na Precision Recall - konfidenčná matica
Revízia 8.5.2020:
- Práca pokračuje.
- Precision-recall vypočítate z konfidenčnej matice [takto](https://towardsdatascience.com/multi-class-metrics-made-simple-part-i-precision-and-recall-9250280bddc2).
Revízia 17.4.2020:
- Upravené zdrojové kódy BiLSTM+CRF pre Punctuation Restoration
- *repozitár [dp2021](./dp2021/)*
Nové úlohy:
- Pripravte si trénovaciu a testovaciu množinu.
- Natrénujte neurónovú sieť na väčších dátach, použite server idoc.
- Vyhodnnotte presnosť vo forme Precision-Recall pre každú triedu
Stretnutie 9.3.2020:
Pozrieť si:
- https://github.com/sgrvinod/a-PyTorch-Tutorial-to-Sequence-Labeling
- Comparison of Recurrent Neural Networks for Slovak
Punctuation Restoration (poslané emailom)
Skúste upraviť kódy:
- https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html
- repozitár https://git.kemt.fei.tuke.sk/dano/comma
na problém dopĺňania interpunkcie.
Na ďalšie stretnutie rozbehané kódy.
Stretnutie 20.2.2020
Úlohy na ďalšie stretnutie:
- Ako zmeniť postupnosť slov na postupnosť vektorov?
- [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f)
- Ako použiť postupnosť vektorov na natrénovanie neurónovej siete?
- [Sequence Tagging, Vocab](https://pytorch.org/text/)
## Tímový projekt 2019
*Projektové stránky:*
- [Spracovanie prirodzeného jazyka](/topics/nlp)
- [Python](/topics/python)
*Úlohy na vypracovanie:*
- [rešerš](./timovy_projekt/resers) tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
- krátky program a [tutoriál](./timovy_projekt/tutorial) (program s rozsiahlym komentárom) v Pythone na využitie LSTM, napr. [ako](https://pytorch.org/tutorials/beginner/nlp/sequence_models_tutorial.html).
- [zaujímavý blog](http://jalammar.github.io/illustrated-transformer/)
*Výstup TP:*
- Písomná práca: [rešerš](./timovy_projekt/resers)
- Tutoriál: [tutoriál](./timovy_projekt/tutorial)