diff --git a/pages/students/2016/darius_lindvai/README.md b/pages/students/2016/darius_lindvai/README.md index 21a1f9396f..8c9b1d9b89 100644 --- a/pages/students/2016/darius_lindvai/README.md +++ b/pages/students/2016/darius_lindvai/README.md @@ -32,16 +32,12 @@ Stretnutie 20.2.2020 - 2. Vybrať a implementovať neurónovú sieť - 3. Vykonať sadu experimentov na overenie presnosti klasifikácie zvolenej neurónovej siete -Úlohy na ďalšie stretnutie: - -Pozrieť si: +Úlohy na ďalšie stretnutie: - Ako zmeniť postupnosť slov na postupnosť vektorov? -- slovo na číslo https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f +- [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f) - Ako použiť postupnosť vektorov na natrénovanie neurónovej siete? -- https://pytorch.org/text/ -- Sequence Tagging -- Vocab +- [Sequence Tagging, Vocab](https://pytorch.org/text/) ## Návrh na zadanie DP diff --git a/pages/students/2016/dominik_nagy/README.md b/pages/students/2016/dominik_nagy/README.md index 9df7edf2e3..6e4f1d49b7 100644 --- a/pages/students/2016/dominik_nagy/README.md +++ b/pages/students/2016/dominik_nagy/README.md @@ -2,6 +2,40 @@ *Rok začiatku štúdia*: 2016 +## Diplomový projekt 1 2020 + +Literatúra: + +[Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037) + +Úlohy na semester: + +- Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny +- Natrénovať a vyhodnotiť Fairseq Model + + +Stretnutie 6.3.2020. + +Úloha na ďalšie stretnutie: + +- spustiť Trénovanie Fairseq na idoc +- Pozrieť dostupné [jazykové zdroje](/topics/resources) +- Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/) +- Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md + +## Diplomová práca 2021 + +*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre strojový preklad + +*Meno vedúceho*: Ing. Daniel Hládek, PhD. + +*Zadanie diplomovej práce*: + +1. Vypracujte teoretický prehľad metód "sequence to sequence". +2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu. +3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine. +4. Na základe výsledkov experimentov navrhnite zlepšenia. + ## Tímový projekt 2019 *Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md) @@ -27,15 +61,3 @@ V prípade záujmu je možné pracovať na úlohe strojového prekladu. Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora -## Diplomová práca 2021 - -*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre opravu preklepov - -*Meno vedúceho*: Ing. Daniel Hládek, PhD. - -*Zadanie diplomovej práce*: - -1. Vypracujte teoretický prehľad metód "sequence to sequence". -2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu opravy preklepov. -3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine. -4. Na základe výsledkov experimentov navrhnite zlepšenia. \ No newline at end of file diff --git a/pages/students/2016/tomas_kucharik/README.md b/pages/students/2016/tomas_kucharik/README.md new file mode 100644 index 0000000000..ad776685fc --- /dev/null +++ b/pages/students/2016/tomas_kucharik/README.md @@ -0,0 +1,40 @@ +# Tomáš Kuchárik +(študent KPI) + +## Diplomový projekt 1 + +Úlohy na semester: + +- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html +- Vybrať prvú množinu článkov +- Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede. +- Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii +- Možno: natrénovať model z anglických alebo slovenských dát. + +Úvodné stretnutie 6.3.2020. + +Porozmýšľať: + +- Ako vyberieme najlepšie články (PageRank?) +- Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy. + +Úlohy pre vedúceho: + +- Vytvoriť spoločný repozitár Prodigy +- Vytvoriť Wiki stránku a spoločný repozitár pre projekt + +Úlohy na ďalšie stretnutie: + +- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html. +- Študovať odborné články na tému Question Answering +- Oboznámiť sa s https://github.com/5hirish/adam_qas +- Oboznámte sa s frameworkom Spacy a Prodigy. + + +## Diplomová práca 2021 + +Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka + +Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov" + +Anotácia pomocou systému [Prodigy](https://prodi.gy/docs) diff --git a/pages/topics/question/README.md b/pages/topics/question/README.md new file mode 100644 index 0000000000..dd9af2fb42 --- /dev/null +++ b/pages/topics/question/README.md @@ -0,0 +1,47 @@ +# Question Answering + +## Implementácie + +- https://github.com/facebookresearch/DrQA +- https://github.com/brmson/yodaqa +- https://github.com/5hirish/adam_qas + +## Bibliografia + +- Reading Wikipedia to Answer Open-Domain Questions, Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes +Facebook Research +- SQuAD: 100,000+ Questions for Machine Comprehension of Text https://arxiv.org/abs/1606.05250 + + +## Dáta + +- Squad TheStanfordQuestionAnsweringDataset(SQuAD) (Rajpurkar et al., 2016) +- WebQuestions +- https://en.wikipedia.org/wiki/Freebase + + +## Príprava dátovej množiny + +1. Získanie a parsovanie Wiki Dump +2. Výber vhodných paragrafov (1. paragraf?) + +Zoznam 75 najlepších článkov https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_najlep%C5%A1%C3%ADch_%C4%8Dl%C3%A1nkov +Zoznam 167 dobrých článkov +https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_dobr%C3%BDch_%C4%8Dl%C3%A1nkov +Wikipedia: vedeli ste že? (facts) https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zauj%C3%ADmavosti + +## Príprava crowdsourcing systému + +? Bootstrapping slovenského Spacy Modelu +Deployment web aplikácie +Setup anotačnej úlohy 1, 2, 3 +Databáza anotátorov pre evidenciu pracovných výstupov +Príprava manuálu pre anotátorov + +Aplikácia pre vyhodnotenie výsledkov anotácie - kto anotoval koľko, koľko je anotované spolu + +### Anotácia + +Vytvorenie otázky k paragrafu +Vyznačenie odpovede na otázku v paragrafe +Vyznačenie pomenovaných entít?