forked from KEMT/zpwiki
164 lines
4.7 KiB
Markdown
164 lines
4.7 KiB
Markdown
---
|
|
title: Dárius Lindvai
|
|
published: true
|
|
taxonomy:
|
|
category: [dp2021,bp2019]
|
|
tag: [nn,interpunction,nlp]
|
|
author: Daniel Hladek
|
|
---
|
|
# Dárius Lindvai
|
|
Rok začiatku štúdia: 2016
|
|
|
|
Repozitár so [zdrojovými kódmi](https://git.kemt.fei.tuke.sk/dl874wn/dp2021)
|
|
|
|
## Diplomový projekt 2 2020
|
|
|
|
Stretnutie 25.1.2021
|
|
|
|
Stav:
|
|
|
|
- Vypracovaný report experimentov
|
|
- Prezentácia
|
|
|
|
|
|
Virtuálne stretnutie 20.11.2020
|
|
|
|
Stav:
|
|
|
|
- Urobené úlohy z ďalšieho stretnutia
|
|
- Práca na písomnej časti, ešte treba spracovať experimenty.
|
|
|
|
Do ďalšieho stretnutia:
|
|
|
|
- Finalizovať text.
|
|
|
|
|
|
Virtuálne stretnutie 6.11.2020
|
|
|
|
Stav:
|
|
|
|
- Vypracovaná tabuľka s 5 experimentami.
|
|
- vytvorený repozitár.
|
|
|
|
Na ďalšie stretnutie:
|
|
|
|
- nahrať kódy na repozitár.
|
|
- závislosťi (názvy balíčkov) poznačte do súboru requirements.txt.
|
|
- Prepracujte experiment tak aby akceptoval argumenty z príkazového riadka. (sys.argv)
|
|
- K experimentom zapísať skript na spustenie. V skripte by mali byť parametre s ktorými ste spustili experiment.
|
|
- dopracujte report.
|
|
- do teorie urobte prehľad metód punctuation restoration a opis Vašej metódy.
|
|
|
|
|
|
Virtuálne stretnutie 25.9.2020
|
|
|
|
Urobené:
|
|
|
|
- skript pre vyhodnotenie experimentov.
|
|
|
|
|
|
Úlohy do ďalšieho stretnutia:
|
|
- vytvorte nový repozitár so zdrojovými kódmi (nazvite ho dp2021)
|
|
- vykonať a vyhodnotiť experimenty
|
|
- Zvážiť publikovanie na http://conf.uni-obuda.hu/sami2021/paper.html
|
|
- napísať draft na min. 4 strany s teóriou, experimantami aj bibliografipou. Môže byť aj po slovensky, potom to preložíme do nagličtiny.
|
|
|
|
## Diplomový projekt 2020
|
|
|
|
[Výstupy](dp2021)
|
|
|
|
Úlohy na diplomový projekt:
|
|
|
|
- 1. Vybrať a pripraviť dátovú množinu na natrénovanie
|
|
- 2. Vybrať a implementovať neurónovú sieť
|
|
- 3. Vykonať sadu experimentov na overenie presnosti klasifikácie zvolenej neurónovej siete
|
|
|
|
|
|
Názov: Obnovenie interpunkcie pomocou neurónových sietí
|
|
|
|
1. Vypracujte prehľad metód na obnovenie interpunkcie pomocou neurónových sietí.
|
|
2. Vyberte vhodnú metódu obnovenia interpunkcie pomocou neurónových sietí.
|
|
3. Pripravte množinu dát na trénovanie neurónovej siete, navrhnite a vykonajte sadu experimentov s rôznymi parametrami.
|
|
4. Vyhodnoťte experimenty a navrhnite možné zlepšenia.
|
|
|
|
## Zápis o činnosti
|
|
|
|
Virtuálne stretnutie 26.6.
|
|
|
|
Urobené:
|
|
|
|
- Trénovanie modelu BiLSTM+CFR a jeho vyhodnotenie Precision Recall pre každú triedu
|
|
|
|
Treba urobiť:
|
|
|
|
- Vyhodnotenie na testovacej množine
|
|
- Doplnenie skriptu pre prípravu dát
|
|
- Krátky záznam o experimentoch - stručný opis nastavenia, dát a záznam výsledkov.
|
|
|
|
Virtuálne stretnutie 14.5.2020:
|
|
|
|
Prebrali sme premenu [Pytorch Tensor na NumPy Maticu](https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html)
|
|
- Pokračuje práca na Precision Recall - konfidenčná matica
|
|
|
|
Revízia 8.5.2020:
|
|
|
|
- Práca pokračuje.
|
|
- Precision-recall vypočítate z konfidenčnej matice [takto](https://towardsdatascience.com/multi-class-metrics-made-simple-part-i-precision-and-recall-9250280bddc2).
|
|
|
|
|
|
Revízia 17.4.2020:
|
|
|
|
- Upravené zdrojové kódy BiLSTM+CRF pre Punctuation Restoration
|
|
- *repozitár [dp2021](./dp2021/)*
|
|
|
|
Nové úlohy:
|
|
|
|
- Pripravte si trénovaciu a testovaciu množinu.
|
|
- Natrénujte neurónovú sieť na väčších dátach, použite server idoc.
|
|
- Vyhodnnotte presnosť vo forme Precision-Recall pre každú triedu
|
|
|
|
|
|
Stretnutie 9.3.2020:
|
|
|
|
Pozrieť si:
|
|
|
|
- https://github.com/sgrvinod/a-PyTorch-Tutorial-to-Sequence-Labeling
|
|
- Comparison of Recurrent Neural Networks for Slovak
|
|
Punctuation Restoration (poslané emailom)
|
|
|
|
Skúste upraviť kódy:
|
|
|
|
- https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html
|
|
- repozitár https://git.kemt.fei.tuke.sk/dano/comma
|
|
|
|
na problém dopĺňania interpunkcie.
|
|
|
|
Na ďalšie stretnutie rozbehané kódy.
|
|
|
|
Stretnutie 20.2.2020
|
|
|
|
Úlohy na ďalšie stretnutie:
|
|
|
|
- Ako zmeniť postupnosť slov na postupnosť vektorov?
|
|
- [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f)
|
|
- Ako použiť postupnosť vektorov na natrénovanie neurónovej siete?
|
|
- [Sequence Tagging, Vocab](https://pytorch.org/text/)
|
|
|
|
|
|
## Tímový projekt 2019
|
|
|
|
*Projektové stránky:*
|
|
|
|
- [Spracovanie prirodzeného jazyka](/topics/nlp)
|
|
- [Python](/topics/python)
|
|
|
|
*Úlohy na vypracovanie:*
|
|
- [rešerš](./timovy_projekt/resers) tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
|
|
- krátky program a [tutoriál](./timovy_projekt/tutorial) (program s rozsiahlym komentárom) v Pythone na využitie LSTM, napr. [ako](https://pytorch.org/tutorials/beginner/nlp/sequence_models_tutorial.html).
|
|
- [zaujímavý blog](http://jalammar.github.io/illustrated-transformer/)
|
|
|
|
*Výstup TP:*
|
|
|
|
- Písomná práca: [rešerš](./timovy_projekt/resers)
|
|
- Tutoriál: [tutoriál](./timovy_projekt/tutorial)
|