This commit is contained in:
Daniel Hládek 2020-03-09 11:38:01 +01:00
parent 40d1fb9075
commit f9104754e6
2 changed files with 64 additions and 1 deletions

View File

@ -1,11 +1,44 @@
# Jakub Maruniak # Jakub Maruniak
*Rok začiatku štúdia*: 2016 *Rok začiatku štúdia*: 2016
## Diplomový projekt 1 2020
Úlohy na semester:
- Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
- Vybrať a pripraviť vhodné dáta na anotáciu
- Anotovať sadu dát
- Natrénovať a vyhodnotiť model
Stretnutie 9.3.2020:
Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation
Úlohy na ďalšie stretnutie:
- Oboznámte sa s so [systémom Docker](https://student.kemt.fei.tuke.sk/predmety/zct)
- Rozbehajte si anotáciu z repozitára
- Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít
Návrh možných entít na anotáciu:
- OSOBA
- MIESTO alebo politická geografická entita
- ORGANIZACIA
- PRODUKT
- INE
## Tímový projekt 2019 ## Tímový projekt 2019
#### Anotácia textových dát #### Anotácia textových dát
*Úlohy tímového projektu*: *Úlohy tímového projektu*:
- Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing" - Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
- citujte min. 10 najvýznamnejších bibliografických zdrojov - citujte min. 10 najvýznamnejších bibliografických zdrojov
@ -19,9 +52,11 @@
4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora. 4. Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.
*Návrh na názov DP*: *Návrh na názov DP*:
Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu Anotácia textových dát v slovenskom jazyku pomocou metódy crowdsourcingu
*Spolupráca s projektom*: *Spolupráca s projektom*:
- [Podpora slovenčiny v Spacy](/topics/spacy) - [Podpora slovenčiny v Spacy](/topics/spacy)
- [Anotácia textových dát](/topics/prodigy) - [Anotácia textových dát](/topics/prodigy)
- [Rozpoznávanie pomenovaných entít](/topics/named-entity) - [Rozpoznávanie pomenovaných entít](/topics/named-entity)

View File

@ -1,7 +1,34 @@
# Lukáš Pokrývka # Lukáš Pokrývka
*Rok začiatku štúdia:* 2016 *Rok začiatku štúdia:* 2016
## Diplomový projekt 1 2020
Ulohy na semester:
- podrobne si naštudovať vybranú metódu trénovania neurónových sietí
- identifikujte možný spôsob paralelizácie
- natrénujte zvolený model metódou paralelizácie
Stretnutie 9.3.2020
Úlohy na ďalšie stretnutie:
- Skúste natrénovať slovenský word2vec model podľa tutoriálu: http://spark.apache.org/docs/latest/ml-features.html#word2vec (podľa dát z emailu)
- Pozrite si niečo o metóde BERT
- https://medium.com/huggingface/introducing-fastbert-a-simple-deep-learning-library-for-bert-models-89ff763ad384
- https://github.com/huggingface/transformers
## Tímový projekt 2019 ## Tímový projekt 2019
*Úlohy tímového projektu:* *Úlohy tímového projektu:*
@ -12,6 +39,7 @@
*Písomná práca:* [Paralelné spracovanie prirodzeného jazyka](./timovy_projekt) *Písomná práca:* [Paralelné spracovanie prirodzeného jazyka](./timovy_projekt)
## Diplomová práca 2021 ## Diplomová práca 2021
### Paralelné trénovanie neurónových sietí ### Paralelné trénovanie neurónových sietí
*Meno vedúceho:* Ing. Daniel Hládek, PhD. *Meno vedúceho:* Ing. Daniel Hládek, PhD.
@ -24,4 +52,4 @@
4. Navrhnite možné zlepšenia paralelného trénovania neurónových sietí. 4. Navrhnite možné zlepšenia paralelného trénovania neurónových sietí.
- Zaujímavá príručka [Word2vec na Spark](http://spark.apache.org/docs/latest/ml-features.html#word2vec) - Zaujímavá príručka [Word2vec na Spark](http://spark.apache.org/docs/latest/ml-features.html#word2vec)