From 4a5a8fff6e9311c2612055e7741ef1c7a009524a Mon Sep 17 00:00:00 2001 From: dano Date: Thu, 8 Oct 2020 13:34:19 +0000 Subject: [PATCH] Update 'pages/students/2016/maros_harahus/README.md' --- pages/students/2016/maros_harahus/README.md | 32 ++++++++++++--------- 1 file changed, 18 insertions(+), 14 deletions(-) diff --git a/pages/students/2016/maros_harahus/README.md b/pages/students/2016/maros_harahus/README.md index d2dde4c5..cdb36aa6 100644 --- a/pages/students/2016/maros_harahus/README.md +++ b/pages/students/2016/maros_harahus/README.md @@ -10,6 +10,20 @@ taxonomy: ## Diplomový projekt 2 2020 +Zásobník úloh: + +- Preštudovať literatúru na tému "pretrain" a "word embedding" + - [Healthcare NERModelsUsing Language Model Pretraining](http://ceur-ws.org/Vol-2551/paper-04.pdf) + - [Design and implementation of an open source Greek POS Tagger and Entity Recognizer using spaCy](https://ieeexplore.ieee.org/abstract/document/8909591) + - https://arxiv.org/abs/1909.00505 + - https://arxiv.org/abs/1607.04606 + - LSTM, recurrent neural network, +- Vykonať viacero experimentov s pretrénovaním - rôzne modely, rôzne veľkosti adaptačných dát a zostaviť tabuľku +- Opísať pretrénovanie, zhrnúť vplyv pretrénovania na trénovanie v krátkom článku cca 10 strán. +- skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky). +- Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy. + + Virtuálne stretnutie 8.10.2020 Stav: @@ -19,11 +33,13 @@ Stav: - vyskytol sa problém že nevie alokovať viac ako 2GB RAM - 200 iterácií pretrénovania, 4000 riadkov viet - Úlohy do ďalšieho stretnutia: - Dať zdrojáky na GIT - Urobiť porovnanie voči presnosti bez pretrain -- Výsledky dajte do tabuľky - alké parametre ste použili pri trénovaní a pretrénovaí? +- Výsledky dajte do tabuľky - aké parametre ste použili pri trénovaní a pretrénovaí? +- experimenty si poznačte do skriptu aby sa dali zopakovať +- Do článku (do súboru README na GIte) presne opíšte nastavenie experimentu - parametre, dáta a spôsob overenia, aspoň rozpracovať. +- Začnite spisovať teoretickú časť článku, aspoň rozpracovať. Stretnutie 25.9.2020 @@ -72,18 +88,6 @@ K zápočtu: - Porovnajte s presnosťou bez pretrénovania. -Zásobník úloh: - -- Preštudovať literatúru na tému "pretrain" a "word embedding" - - [Healthcare NERModelsUsing Language Model Pretraining](http://ceur-ws.org/Vol-2551/paper-04.pdf) - - [Design and implementation of an open source Greek POS Tagger and Entity Recognizer using spaCy](https://ieeexplore.ieee.org/abstract/document/8909591) - - https://arxiv.org/abs/1909.00505 - - https://arxiv.org/abs/1607.04606 - - LSTM, recurrent neural network, -- Vykonať viacero experimentov s pretrénovaním - rôzne modely, rôzne veľkosti adaptačných dát a zostaviť tabuľku -- Opísať pretrénovanie, zhrnúť vplyv pretrénovania na trénovanie v krátkom článku cca 10 strán. -- skúsiť prezentovať na lokálnej konferencii, (Data, Znalosti and WIKT) alebo fakultný zborník (krátka verzia diplomovky). -- Využiť korpus Multext East pri trénovaní. Vytvoriť mapovanie Multext Tagov na SNK Tagy. Virtuálne stretnutie 15.5.2020: