forked from KEMT/zpwiki
zz
This commit is contained in:
commit
40d1fb9075
@ -34,14 +34,10 @@ Stretnutie 20.2.2020
|
|||||||
|
|
||||||
Úlohy na ďalšie stretnutie:
|
Úlohy na ďalšie stretnutie:
|
||||||
|
|
||||||
Pozrieť si:
|
|
||||||
|
|
||||||
- Ako zmeniť postupnosť slov na postupnosť vektorov?
|
- Ako zmeniť postupnosť slov na postupnosť vektorov?
|
||||||
- slovo na číslo https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f
|
- [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f)
|
||||||
- Ako použiť postupnosť vektorov na natrénovanie neurónovej siete?
|
- Ako použiť postupnosť vektorov na natrénovanie neurónovej siete?
|
||||||
- https://pytorch.org/text/
|
- [Sequence Tagging, Vocab](https://pytorch.org/text/)
|
||||||
- Sequence Tagging
|
|
||||||
- Vocab
|
|
||||||
|
|
||||||
|
|
||||||
## Návrh na zadanie DP
|
## Návrh na zadanie DP
|
||||||
|
@ -2,6 +2,40 @@
|
|||||||
|
|
||||||
*Rok začiatku štúdia*: 2016
|
*Rok začiatku štúdia*: 2016
|
||||||
|
|
||||||
|
## Diplomový projekt 1 2020
|
||||||
|
|
||||||
|
Literatúra:
|
||||||
|
|
||||||
|
[Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037)
|
||||||
|
|
||||||
|
Úlohy na semester:
|
||||||
|
|
||||||
|
- Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
|
||||||
|
- Natrénovať a vyhodnotiť Fairseq Model
|
||||||
|
|
||||||
|
|
||||||
|
Stretnutie 6.3.2020.
|
||||||
|
|
||||||
|
Úloha na ďalšie stretnutie:
|
||||||
|
|
||||||
|
- spustiť Trénovanie Fairseq na idoc
|
||||||
|
- Pozrieť dostupné [jazykové zdroje](/topics/resources)
|
||||||
|
- Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/)
|
||||||
|
- Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md
|
||||||
|
|
||||||
|
## Diplomová práca 2021
|
||||||
|
|
||||||
|
*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre strojový preklad
|
||||||
|
|
||||||
|
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
|
||||||
|
|
||||||
|
*Zadanie diplomovej práce*:
|
||||||
|
|
||||||
|
1. Vypracujte teoretický prehľad metód "sequence to sequence".
|
||||||
|
2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu.
|
||||||
|
3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
|
||||||
|
4. Na základe výsledkov experimentov navrhnite zlepšenia.
|
||||||
|
|
||||||
## Tímový projekt 2019
|
## Tímový projekt 2019
|
||||||
|
|
||||||
*Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md)
|
*Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md)
|
||||||
@ -27,15 +61,3 @@ V prípade záujmu je možné pracovať na úlohe strojového prekladu.
|
|||||||
|
|
||||||
Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora
|
Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora
|
||||||
|
|
||||||
## Diplomová práca 2021
|
|
||||||
|
|
||||||
*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre opravu preklepov
|
|
||||||
|
|
||||||
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
|
|
||||||
|
|
||||||
*Zadanie diplomovej práce*:
|
|
||||||
|
|
||||||
1. Vypracujte teoretický prehľad metód "sequence to sequence".
|
|
||||||
2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu opravy preklepov.
|
|
||||||
3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
|
|
||||||
4. Na základe výsledkov experimentov navrhnite zlepšenia.
|
|
40
pages/students/2016/tomas_kucharik/README.md
Normal file
40
pages/students/2016/tomas_kucharik/README.md
Normal file
@ -0,0 +1,40 @@
|
|||||||
|
# Tomáš Kuchárik
|
||||||
|
(študent KPI)
|
||||||
|
|
||||||
|
## Diplomový projekt 1
|
||||||
|
|
||||||
|
Úlohy na semester:
|
||||||
|
|
||||||
|
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
|
||||||
|
- Vybrať prvú množinu článkov
|
||||||
|
- Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
|
||||||
|
- Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
|
||||||
|
- Možno: natrénovať model z anglických alebo slovenských dát.
|
||||||
|
|
||||||
|
Úvodné stretnutie 6.3.2020.
|
||||||
|
|
||||||
|
Porozmýšľať:
|
||||||
|
|
||||||
|
- Ako vyberieme najlepšie články (PageRank?)
|
||||||
|
- Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.
|
||||||
|
|
||||||
|
Úlohy pre vedúceho:
|
||||||
|
|
||||||
|
- Vytvoriť spoločný repozitár Prodigy
|
||||||
|
- Vytvoriť Wiki stránku a spoločný repozitár pre projekt
|
||||||
|
|
||||||
|
Úlohy na ďalšie stretnutie:
|
||||||
|
|
||||||
|
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html.
|
||||||
|
- Študovať odborné články na tému Question Answering
|
||||||
|
- Oboznámiť sa s https://github.com/5hirish/adam_qas
|
||||||
|
- Oboznámte sa s frameworkom Spacy a Prodigy.
|
||||||
|
|
||||||
|
|
||||||
|
## Diplomová práca 2021
|
||||||
|
|
||||||
|
Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka
|
||||||
|
|
||||||
|
Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"
|
||||||
|
|
||||||
|
Anotácia pomocou systému [Prodigy](https://prodi.gy/docs)
|
47
pages/topics/question/README.md
Normal file
47
pages/topics/question/README.md
Normal file
@ -0,0 +1,47 @@
|
|||||||
|
# Question Answering
|
||||||
|
|
||||||
|
## Implementácie
|
||||||
|
|
||||||
|
- https://github.com/facebookresearch/DrQA
|
||||||
|
- https://github.com/brmson/yodaqa
|
||||||
|
- https://github.com/5hirish/adam_qas
|
||||||
|
|
||||||
|
## Bibliografia
|
||||||
|
|
||||||
|
- Reading Wikipedia to Answer Open-Domain Questions, Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes
|
||||||
|
Facebook Research
|
||||||
|
- SQuAD: 100,000+ Questions for Machine Comprehension of Text https://arxiv.org/abs/1606.05250
|
||||||
|
|
||||||
|
|
||||||
|
## Dáta
|
||||||
|
|
||||||
|
- Squad TheStanfordQuestionAnsweringDataset(SQuAD) (Rajpurkar et al., 2016)
|
||||||
|
- WebQuestions
|
||||||
|
- https://en.wikipedia.org/wiki/Freebase
|
||||||
|
|
||||||
|
|
||||||
|
## Príprava dátovej množiny
|
||||||
|
|
||||||
|
1. Získanie a parsovanie Wiki Dump
|
||||||
|
2. Výber vhodných paragrafov (1. paragraf?)
|
||||||
|
|
||||||
|
Zoznam 75 najlepších článkov https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_najlep%C5%A1%C3%ADch_%C4%8Dl%C3%A1nkov
|
||||||
|
Zoznam 167 dobrých článkov
|
||||||
|
https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_dobr%C3%BDch_%C4%8Dl%C3%A1nkov
|
||||||
|
Wikipedia: vedeli ste že? (facts) https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zauj%C3%ADmavosti
|
||||||
|
|
||||||
|
## Príprava crowdsourcing systému
|
||||||
|
|
||||||
|
? Bootstrapping slovenského Spacy Modelu
|
||||||
|
Deployment web aplikácie
|
||||||
|
Setup anotačnej úlohy 1, 2, 3
|
||||||
|
Databáza anotátorov pre evidenciu pracovných výstupov
|
||||||
|
Príprava manuálu pre anotátorov
|
||||||
|
|
||||||
|
Aplikácia pre vyhodnotenie výsledkov anotácie - kto anotoval koľko, koľko je anotované spolu
|
||||||
|
|
||||||
|
### Anotácia
|
||||||
|
|
||||||
|
Vytvorenie otázky k paragrafu
|
||||||
|
Vyznačenie odpovede na otázku v paragrafe
|
||||||
|
Vyznačenie pomenovaných entít?
|
Loading…
Reference in New Issue
Block a user