From f9104754e6a4fd5ece1f51322902780751cc1e77 Mon Sep 17 00:00:00 2001 From: Daniel Hladek Date: Mon, 9 Mar 2020 11:38:01 +0100 Subject: [PATCH] zz --- pages/students/2016/jakub_maruniak/README.md | 35 ++++++++++++++++++++ pages/students/2016/lukas_pokryvka/README.md | 30 ++++++++++++++++- 2 files changed, 64 insertions(+), 1 deletion(-) diff --git a/pages/students/2016/jakub_maruniak/README.md b/pages/students/2016/jakub_maruniak/README.md index 4cfaa6a1e0..305b359fd0 100644 --- a/pages/students/2016/jakub_maruniak/README.md +++ b/pages/students/2016/jakub_maruniak/README.md @@ -1,11 +1,44 @@ # Jakub Maruniak + *Rok začiatku štúdia*: 2016 +## Diplomový projekt 1 2020 + +Úlohy na semester: + +- Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít +- Vybrať a pripraviť vhodné dáta na anotáciu +- Anotovať sadu dát +- Natrénovať a vyhodnotiť model + + +Stretnutie 9.3.2020: + +Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation + +Úlohy na ďalšie stretnutie: + +- Oboznámte sa s so [systémom Docker](https://student.kemt.fei.tuke.sk/predmety/zct) +- Rozbehajte si anotáciu z repozitára +- Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít + +Návrh možných entít na anotáciu: + +- OSOBA +- MIESTO alebo politická geografická entita +- ORGANIZACIA +- PRODUKT +- INE + + + + ## Tímový projekt 2019 #### Anotácia textových dát *Úlohy tímového projektu*: + - Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing" - citujte min. 10 najvýznamnejších bibliografických zdrojov @@ -19,9 +52,11 @@ 4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora. *Návrh na názov DP*: + Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu *Spolupráca s projektom*: + - [Podpora slovenčiny v Spacy](/topics/spacy) - [Anotácia textových dát](/topics/prodigy) - [Rozpoznávanie pomenovaných entít](/topics/named-entity) diff --git a/pages/students/2016/lukas_pokryvka/README.md b/pages/students/2016/lukas_pokryvka/README.md index abb4dea7dc..6bc0f097a0 100644 --- a/pages/students/2016/lukas_pokryvka/README.md +++ b/pages/students/2016/lukas_pokryvka/README.md @@ -1,7 +1,34 @@ # Lukáš Pokrývka + *Rok začiatku štúdia:* 2016 +## Diplomový projekt 1 2020 + +Ulohy na semester: + +- podrobne si naštudovať vybranú metódu trénovania neurónových sietí +- identifikujte možný spôsob paralelizácie +- natrénujte zvolený model metódou paralelizácie + + +Stretnutie 9.3.2020 + +Úlohy na ďalšie stretnutie: + +- Skúste natrénovať slovenský word2vec model podľa tutoriálu: http://spark.apache.org/docs/latest/ml-features.html#word2vec (podľa dát z emailu) +- Pozrite si niečo o metóde BERT + +- https://medium.com/huggingface/introducing-fastbert-a-simple-deep-learning-library-for-bert-models-89ff763ad384 +- https://github.com/huggingface/transformers + + + + + + + + ## Tímový projekt 2019 *Úlohy tímového projektu:* @@ -12,6 +39,7 @@ *Písomná práca:* [Paralelné spracovanie prirodzeného jazyka](./timovy_projekt) ## Diplomová práca 2021 + ### Paralelné trénovanie neurónových sietí *Meno vedúceho:* Ing. Daniel Hládek, PhD. @@ -24,4 +52,4 @@ 4. Navrhnite možné zlepšenia paralelného trénovania neurónových sietí. -- Zaujímavá príručka [Word2vec na Spark](http://spark.apache.org/docs/latest/ml-features.html#word2vec) \ No newline at end of file +- Zaujímavá príručka [Word2vec na Spark](http://spark.apache.org/docs/latest/ml-features.html#word2vec)