This commit is contained in:
Daniel Hládek 2020-03-09 10:51:33 +01:00
commit 40d1fb9075
4 changed files with 124 additions and 19 deletions

View File

@ -34,14 +34,10 @@ Stretnutie 20.2.2020
Úlohy na ďalšie stretnutie: Úlohy na ďalšie stretnutie:
Pozrieť si:
- Ako zmeniť postupnosť slov na postupnosť vektorov? - Ako zmeniť postupnosť slov na postupnosť vektorov?
- slovo na číslo https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f - [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f)
- Ako použiť postupnosť vektorov na natrénovanie neurónovej siete? - Ako použiť postupnosť vektorov na natrénovanie neurónovej siete?
- https://pytorch.org/text/ - [Sequence Tagging, Vocab](https://pytorch.org/text/)
- Sequence Tagging
- Vocab
## Návrh na zadanie DP ## Návrh na zadanie DP

View File

@ -2,6 +2,40 @@
*Rok začiatku štúdia*: 2016 *Rok začiatku štúdia*: 2016
## Diplomový projekt 1 2020
Literatúra:
[Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037)
Úlohy na semester:
- Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
- Natrénovať a vyhodnotiť Fairseq Model
Stretnutie 6.3.2020.
Úloha na ďalšie stretnutie:
- spustiť Trénovanie Fairseq na idoc
- Pozrieť dostupné [jazykové zdroje](/topics/resources)
- Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/)
- Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md
## Diplomová práca 2021
*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre strojový preklad
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
*Zadanie diplomovej práce*:
1. Vypracujte teoretický prehľad metód "sequence to sequence".
2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu.
3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
4. Na základe výsledkov experimentov navrhnite zlepšenia.
## Tímový projekt 2019 ## Tímový projekt 2019
*Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md) *Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md)
@ -27,15 +61,3 @@ V prípade záujmu je možné pracovať na úlohe strojového prekladu.
Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora
## Diplomová práca 2021
*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre opravu preklepov
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
*Zadanie diplomovej práce*:
1. Vypracujte teoretický prehľad metód "sequence to sequence".
2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu opravy preklepov.
3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
4. Na základe výsledkov experimentov navrhnite zlepšenia.

View File

@ -0,0 +1,40 @@
# Tomáš Kuchárik
(študent KPI)
## Diplomový projekt 1
Úlohy na semester:
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
- Vybrať prvú množinu článkov
- Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
- Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
- Možno: natrénovať model z anglických alebo slovenských dát.
Úvodné stretnutie 6.3.2020.
Porozmýšľať:
- Ako vyberieme najlepšie články (PageRank?)
- Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.
Úlohy pre vedúceho:
- Vytvoriť spoločný repozitár Prodigy
- Vytvoriť Wiki stránku a spoločný repozitár pre projekt
Úlohy na ďalšie stretnutie:
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html.
- Študovať odborné články na tému Question Answering
- Oboznámiť sa s https://github.com/5hirish/adam_qas
- Oboznámte sa s frameworkom Spacy a Prodigy.
## Diplomová práca 2021
Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka
Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"
Anotácia pomocou systému [Prodigy](https://prodi.gy/docs)

View File

@ -0,0 +1,47 @@
# Question Answering
## Implementácie
- https://github.com/facebookresearch/DrQA
- https://github.com/brmson/yodaqa
- https://github.com/5hirish/adam_qas
## Bibliografia
- Reading Wikipedia to Answer Open-Domain Questions, Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes
Facebook Research
- SQuAD: 100,000+ Questions for Machine Comprehension of Text https://arxiv.org/abs/1606.05250
## Dáta
- Squad TheStanfordQuestionAnsweringDataset(SQuAD) (Rajpurkar et al., 2016)
- WebQuestions
- https://en.wikipedia.org/wiki/Freebase
## Príprava dátovej množiny
1. Získanie a parsovanie Wiki Dump
2. Výber vhodných paragrafov (1. paragraf?)
Zoznam 75 najlepších článkov https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_najlep%C5%A1%C3%ADch_%C4%8Dl%C3%A1nkov
Zoznam 167 dobrých článkov
https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_dobr%C3%BDch_%C4%8Dl%C3%A1nkov
Wikipedia: vedeli ste že? (facts) https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zauj%C3%ADmavosti
## Príprava crowdsourcing systému
? Bootstrapping slovenského Spacy Modelu
Deployment web aplikácie
Setup anotačnej úlohy 1, 2, 3
Databáza anotátorov pre evidenciu pracovných výstupov
Príprava manuálu pre anotátorov
Aplikácia pre vyhodnotenie výsledkov anotácie - kto anotoval koľko, koľko je anotované spolu
### Anotácia
Vytvorenie otázky k paragrafu
Vyznačenie odpovede na otázku v paragrafe
Vyznačenie pomenovaných entít?