From f29704920319fb8ca9196a1b120f6a9a6c4b3d16 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 6 Mar 2020 08:12:39 +0000 Subject: [PATCH 1/8] Add 'pages/students/2016/tomas_kucharik/README.md' --- pages/students/2016/tomas_kucharik/README.md | 9 +++++++++ 1 file changed, 9 insertions(+) create mode 100644 pages/students/2016/tomas_kucharik/README.md diff --git a/pages/students/2016/tomas_kucharik/README.md b/pages/students/2016/tomas_kucharik/README.md new file mode 100644 index 0000000000..ac26dc0658 --- /dev/null +++ b/pages/students/2016/tomas_kucharik/README.md @@ -0,0 +1,9 @@ +# Tomáš Kuchárik + +## Diplomová práca 2021 + +Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka + +Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov" + +Úvodné stretnutie 6.3.2020. From 8ab854165c2983309cf6d03c12d157052de98404 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 6 Mar 2020 08:48:08 +0000 Subject: [PATCH 2/8] Update 'pages/students/2016/tomas_kucharik/README.md' --- pages/students/2016/tomas_kucharik/README.md | 26 +++++++++++++++++++- 1 file changed, 25 insertions(+), 1 deletion(-) diff --git a/pages/students/2016/tomas_kucharik/README.md b/pages/students/2016/tomas_kucharik/README.md index ac26dc0658..b9b55948bd 100644 --- a/pages/students/2016/tomas_kucharik/README.md +++ b/pages/students/2016/tomas_kucharik/README.md @@ -1,4 +1,28 @@ # Tomáš Kuchárik +## Diplomový projekt 1 + +Úlohy na semester: + +- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html +- Vybrať prvú množinu článkov +- Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede. +- Možno: natrénovať model z anglických alebo slovenských dát. + + +Úvodné stretnutie 6.3.2020. + +Porozmýšľať: + +- Ako vyberieme najlepšie články (PageRank?) +- + +Úlohy pre vedúceho: + +- Vytvoriť spoločný repozitár Prodigy +- Vytvoriť Wiki stránku pre projekt + + + ## Diplomová práca 2021 @@ -6,4 +30,4 @@ Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyk Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov" -Úvodné stretnutie 6.3.2020. +Anotácia pomocou systému [Prodigy](https://prodi.gy/docs) From 2d623c17754b8206816b16f1c0387b2eb4f081b2 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 6 Mar 2020 09:00:12 +0000 Subject: [PATCH 3/8] Update 'pages/students/2016/tomas_kucharik/README.md' --- pages/students/2016/tomas_kucharik/README.md | 17 ++++++++++++----- 1 file changed, 12 insertions(+), 5 deletions(-) diff --git a/pages/students/2016/tomas_kucharik/README.md b/pages/students/2016/tomas_kucharik/README.md index b9b55948bd..ad776685fc 100644 --- a/pages/students/2016/tomas_kucharik/README.md +++ b/pages/students/2016/tomas_kucharik/README.md @@ -1,4 +1,6 @@ # Tomáš Kuchárik +(študent KPI) + ## Diplomový projekt 1 Úlohy na semester: @@ -6,24 +8,29 @@ - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html - Vybrať prvú množinu článkov - Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede. +- Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii - Možno: natrénovať model z anglických alebo slovenských dát. - Úvodné stretnutie 6.3.2020. Porozmýšľať: - Ako vyberieme najlepšie články (PageRank?) -- +- Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy. Úlohy pre vedúceho: - Vytvoriť spoločný repozitár Prodigy -- Vytvoriť Wiki stránku pre projekt +- Vytvoriť Wiki stránku a spoločný repozitár pre projekt + +Úlohy na ďalšie stretnutie: + +- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html. +- Študovať odborné články na tému Question Answering +- Oboznámiť sa s https://github.com/5hirish/adam_qas +- Oboznámte sa s frameworkom Spacy a Prodigy. - - ## Diplomová práca 2021 Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka From 4da1e9af9630c0e72f1fab394ad1e8bc16ca88eb Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 6 Mar 2020 09:21:05 +0000 Subject: [PATCH 4/8] Update 'pages/students/2016/dominik_nagy/README.md' --- pages/students/2016/dominik_nagy/README.md | 40 +++++++++++++++------- 1 file changed, 28 insertions(+), 12 deletions(-) diff --git a/pages/students/2016/dominik_nagy/README.md b/pages/students/2016/dominik_nagy/README.md index 9df7edf2e3..f4cd080272 100644 --- a/pages/students/2016/dominik_nagy/README.md +++ b/pages/students/2016/dominik_nagy/README.md @@ -2,6 +2,34 @@ *Rok začiatku štúdia*: 2016 +## Diplomový projekt 1 2020 + +Úlohy na semester: + +- Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny +- Natrénovať a vyhodnotiť Fairseq Model + + +Stretnutie 6.3.2020. + +Úloha na ďalšie stretnutie: + +- spustiť Trénovanie Fairseq na idoc +- Pozrieť dostupné [jazykové zdroje](/topics/resources) + +## Diplomová práca 2021 + +*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre strojový preklad + +*Meno vedúceho*: Ing. Daniel Hládek, PhD. + +*Zadanie diplomovej práce*: + +1. Vypracujte teoretický prehľad metód "sequence to sequence". +2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu. +3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine. +4. Na základe výsledkov experimentov navrhnite zlepšenia. + ## Tímový projekt 2019 *Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md) @@ -27,15 +55,3 @@ V prípade záujmu je možné pracovať na úlohe strojového prekladu. Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora -## Diplomová práca 2021 - -*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre opravu preklepov - -*Meno vedúceho*: Ing. Daniel Hládek, PhD. - -*Zadanie diplomovej práce*: - -1. Vypracujte teoretický prehľad metód "sequence to sequence". -2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu opravy preklepov. -3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine. -4. Na základe výsledkov experimentov navrhnite zlepšenia. \ No newline at end of file From 76acb86fcb181d67121a9540a7b006284117fa01 Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 6 Mar 2020 09:30:10 +0000 Subject: [PATCH 5/8] Update 'pages/students/2016/dominik_nagy/README.md' --- pages/students/2016/dominik_nagy/README.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/pages/students/2016/dominik_nagy/README.md b/pages/students/2016/dominik_nagy/README.md index f4cd080272..6e4f1d49b7 100644 --- a/pages/students/2016/dominik_nagy/README.md +++ b/pages/students/2016/dominik_nagy/README.md @@ -4,6 +4,10 @@ ## Diplomový projekt 1 2020 +Literatúra: + +[Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037) + Úlohy na semester: - Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny @@ -16,6 +20,8 @@ Stretnutie 6.3.2020. - spustiť Trénovanie Fairseq na idoc - Pozrieť dostupné [jazykové zdroje](/topics/resources) +- Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/) +- Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md ## Diplomová práca 2021 From eea723d01109263f25f75f13593c03dd652cdc6f Mon Sep 17 00:00:00 2001 From: dano Date: Fri, 6 Mar 2020 09:53:42 +0000 Subject: [PATCH 6/8] Add 'pages/topics/question/README.md' --- pages/topics/question/README.md | 47 +++++++++++++++++++++++++++++++++ 1 file changed, 47 insertions(+) create mode 100644 pages/topics/question/README.md diff --git a/pages/topics/question/README.md b/pages/topics/question/README.md new file mode 100644 index 0000000000..dd9af2fb42 --- /dev/null +++ b/pages/topics/question/README.md @@ -0,0 +1,47 @@ +# Question Answering + +## Implementácie + +- https://github.com/facebookresearch/DrQA +- https://github.com/brmson/yodaqa +- https://github.com/5hirish/adam_qas + +## Bibliografia + +- Reading Wikipedia to Answer Open-Domain Questions, Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes +Facebook Research +- SQuAD: 100,000+ Questions for Machine Comprehension of Text https://arxiv.org/abs/1606.05250 + + +## Dáta + +- Squad TheStanfordQuestionAnsweringDataset(SQuAD) (Rajpurkar et al., 2016) +- WebQuestions +- https://en.wikipedia.org/wiki/Freebase + + +## Príprava dátovej množiny + +1. Získanie a parsovanie Wiki Dump +2. Výber vhodných paragrafov (1. paragraf?) + +Zoznam 75 najlepších článkov https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_najlep%C5%A1%C3%ADch_%C4%8Dl%C3%A1nkov +Zoznam 167 dobrých článkov +https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_dobr%C3%BDch_%C4%8Dl%C3%A1nkov +Wikipedia: vedeli ste že? (facts) https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zauj%C3%ADmavosti + +## Príprava crowdsourcing systému + +? Bootstrapping slovenského Spacy Modelu +Deployment web aplikácie +Setup anotačnej úlohy 1, 2, 3 +Databáza anotátorov pre evidenciu pracovných výstupov +Príprava manuálu pre anotátorov + +Aplikácia pre vyhodnotenie výsledkov anotácie - kto anotoval koľko, koľko je anotované spolu + +### Anotácia + +Vytvorenie otázky k paragrafu +Vyznačenie odpovede na otázku v paragrafe +Vyznačenie pomenovaných entít? From ed4b9db11fc8defc96c239e47c0de41ce51b3261 Mon Sep 17 00:00:00 2001 From: Darius Lindvai Date: Sun, 8 Mar 2020 19:29:31 +0100 Subject: [PATCH 7/8] readme --- pages/students/2016/darius_lindvai/README.md | 8 +++----- 1 file changed, 3 insertions(+), 5 deletions(-) diff --git a/pages/students/2016/darius_lindvai/README.md b/pages/students/2016/darius_lindvai/README.md index 6765a98cdc..dbec594f72 100644 --- a/pages/students/2016/darius_lindvai/README.md +++ b/pages/students/2016/darius_lindvai/README.md @@ -11,14 +11,12 @@ Stretnutie 20.2.2020 - 2. Vybrať a implementovať neurónovú sieť - 3. Vykonať sadu experimentov na overenie presnosti klasifikácie zvolenej neurónovej siete -Úlohy na ďalšie stretnutie: - -Pozrieť si: +Úlohy na ďalšie stretnutie: - Ako zmeniť postupnosť slov na postupnosť vektorov? -- slovo na číslo https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f +- [slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f) - Ako použiť postupnosť vektorov na natrénovanie neurónovej siete? -- https://pytorch.org/text/ +- [](https://pytorch.org/text/) - Sequence Tagging - Vocab From b0a76e1aabe66b6d93526cee3fde35121eff2fe4 Mon Sep 17 00:00:00 2001 From: Darius Lindvai Date: Sun, 8 Mar 2020 20:36:47 +0100 Subject: [PATCH 8/8] readme --- pages/students/2016/darius_lindvai/README.md | 6 ++---- 1 file changed, 2 insertions(+), 4 deletions(-) diff --git a/pages/students/2016/darius_lindvai/README.md b/pages/students/2016/darius_lindvai/README.md index dbec594f72..14eb73b154 100644 --- a/pages/students/2016/darius_lindvai/README.md +++ b/pages/students/2016/darius_lindvai/README.md @@ -14,11 +14,9 @@ Stretnutie 20.2.2020 Úlohy na ďalšie stretnutie: - Ako zmeniť postupnosť slov na postupnosť vektorov? -- [slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f) +- [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f) - Ako použiť postupnosť vektorov na natrénovanie neurónovej siete? -- [](https://pytorch.org/text/) -- Sequence Tagging -- Vocab +- [Sequence Tagging, Vocab](https://pytorch.org/text/) ## Návrh na zadanie DP