zz

2020-03-09 10:51:33 +01:00 · 2020-03-09 10:51:33 +01:00 · 40d1fb9075
commit 40d1fb9075
parent 62bffa3d5a b0a76e1aab
4 changed files with 124 additions and 19 deletions
--- a/pages/students/2016/darius_lindvai/README.md
+++ b/pages/students/2016/darius_lindvai/README.md
@ -34,14 +34,10 @@ Stretnutie 20.2.2020
 Úlohy na ďalšie stretnutie: 
 Pozrieť si: 
 - Ako zmeniť postupnosť slov na postupnosť vektorov? 
- slovo na číslo https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f
+- [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f)
 - Ako použiť postupnosť vektorov na natrénovanie neurónovej siete?
- https://pytorch.org/text/
+- [Sequence Tagging, Vocab](https://pytorch.org/text/)
 - Sequence Tagging
 - Vocab
 ## Návrh na zadanie DP
--- a/pages/students/2016/dominik_nagy/README.md
+++ b/pages/students/2016/dominik_nagy/README.md
@ -2,6 +2,40 @@
 *Rok začiatku štúdia*: 2016
 ## Diplomový projekt 1 2020
 Literatúra:
 [Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037)
 Úlohy na semester:
 - Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
 - Natrénovať a vyhodnotiť Fairseq Model
 Stretnutie 6.3.2020.
 Úloha na ďalšie stretnutie:
 - spustiť Trénovanie Fairseq na idoc
 - Pozrieť dostupné [jazykové zdroje](/topics/resources)
 - Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/)
 - Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md
 ## Diplomová práca 2021
 *Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre strojový preklad
 *Meno vedúceho*: Ing. Daniel Hládek, PhD.
 *Zadanie diplomovej práce*: 
 1. Vypracujte teoretický prehľad metód "sequence to sequence".
 2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu.
 3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine. 
 4. Na základe výsledkov experimentov navrhnite zlepšenia.
 ## Tímový projekt 2019
 *Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md)
@ -27,15 +61,3 @@ V prípade záujmu je možné pracovať na úlohe strojového prekladu.
 Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora
 ## Diplomová práca 2021
 *Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre opravu preklepov
 *Meno vedúceho*: Ing. Daniel Hládek, PhD.
 *Zadanie diplomovej práce*: 
 1. Vypracujte teoretický prehľad metód "sequence to sequence".
 2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu opravy preklepov.
 3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine. 
 4. Na základe výsledkov experimentov navrhnite zlepšenia.
--- a/pages/students/2016/tomas_kucharik/README.md
+++ b/pages/students/2016/tomas_kucharik/README.md
@ -0,0 +1,40 @@
 # Tomáš Kuchárik
 (študent KPI)
 ## Diplomový projekt 1
 Úlohy na semester:
 - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
 - Vybrať prvú množinu článkov
 - Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
 - Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
 - Možno: natrénovať model z anglických alebo slovenských dát.
 Úvodné stretnutie 6.3.2020.
 Porozmýšľať:
 - Ako vyberieme najlepšie články (PageRank?)
 - Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy. 
 Úlohy pre vedúceho:
 - Vytvoriť spoločný repozitár Prodigy
 - Vytvoriť Wiki stránku a spoločný repozitár pre projekt
 Úlohy na ďalšie stretnutie:
 - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html.
 - Študovať odborné články na tému Question Answering
 - Oboznámiť sa s https://github.com/5hirish/adam_qas
 - Oboznámte sa s frameworkom Spacy a Prodigy.
 ## Diplomová práca 2021
 Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka
 Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"
 Anotácia pomocou systému [Prodigy](https://prodi.gy/docs)
--- a/pages/topics/question/README.md
+++ b/pages/topics/question/README.md
@ -0,0 +1,47 @@
 # Question Answering
 ## Implementácie
 - https://github.com/facebookresearch/DrQA
 - https://github.com/brmson/yodaqa
 - https://github.com/5hirish/adam_qas
 ## Bibliografia
 - Reading Wikipedia to Answer Open-Domain Questions, Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes
 Facebook Research
 - SQuAD: 100,000+ Questions for Machine Comprehension of Text https://arxiv.org/abs/1606.05250
 ## Dáta
 - Squad TheStanfordQuestionAnsweringDataset(SQuAD)  (Rajpurkar  et  al.,  2016) 
 - WebQuestions
 - https://en.wikipedia.org/wiki/Freebase
 ## Príprava dátovej množiny
 1. Získanie a parsovanie Wiki Dump
 2. Výber vhodných paragrafov (1. paragraf?)
 Zoznam 75 najlepších článkov https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_najlep%C5%A1%C3%ADch_%C4%8Dl%C3%A1nkov
 Zoznam 167 dobrých článkov
 https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_dobr%C3%BDch_%C4%8Dl%C3%A1nkov 
 Wikipedia: vedeli ste že? (facts) https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zauj%C3%ADmavosti
 ## Príprava crowdsourcing systému
 ? Bootstrapping slovenského Spacy Modelu
 Deployment web aplikácie
 Setup anotačnej úlohy 1, 2, 3
 Databáza anotátorov pre evidenciu pracovných výstupov
 Príprava manuálu pre anotátorov
 Aplikácia pre vyhodnotenie výsledkov anotácie - kto anotoval koľko, koľko je anotované spolu
 ### Anotácia
 Vytvorenie otázky k paragrafu
 Vyznačenie odpovede na otázku v paragrafe
 Vyznačenie pomenovaných entít?