zz
This commit is contained in:
commit
40d1fb9075
@ -34,14 +34,10 @@ Stretnutie 20.2.2020
|
||||
|
||||
Úlohy na ďalšie stretnutie:
|
||||
|
||||
Pozrieť si:
|
||||
|
||||
- Ako zmeniť postupnosť slov na postupnosť vektorov?
|
||||
- slovo na číslo https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f
|
||||
- [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f)
|
||||
- Ako použiť postupnosť vektorov na natrénovanie neurónovej siete?
|
||||
- https://pytorch.org/text/
|
||||
- Sequence Tagging
|
||||
- Vocab
|
||||
- [Sequence Tagging, Vocab](https://pytorch.org/text/)
|
||||
|
||||
|
||||
## Návrh na zadanie DP
|
||||
|
@ -2,6 +2,40 @@
|
||||
|
||||
*Rok začiatku štúdia*: 2016
|
||||
|
||||
## Diplomový projekt 1 2020
|
||||
|
||||
Literatúra:
|
||||
|
||||
[Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037)
|
||||
|
||||
Úlohy na semester:
|
||||
|
||||
- Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
|
||||
- Natrénovať a vyhodnotiť Fairseq Model
|
||||
|
||||
|
||||
Stretnutie 6.3.2020.
|
||||
|
||||
Úloha na ďalšie stretnutie:
|
||||
|
||||
- spustiť Trénovanie Fairseq na idoc
|
||||
- Pozrieť dostupné [jazykové zdroje](/topics/resources)
|
||||
- Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/)
|
||||
- Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md
|
||||
|
||||
## Diplomová práca 2021
|
||||
|
||||
*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre strojový preklad
|
||||
|
||||
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
|
||||
|
||||
*Zadanie diplomovej práce*:
|
||||
|
||||
1. Vypracujte teoretický prehľad metód "sequence to sequence".
|
||||
2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu.
|
||||
3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
|
||||
4. Na základe výsledkov experimentov navrhnite zlepšenia.
|
||||
|
||||
## Tímový projekt 2019
|
||||
|
||||
*Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md)
|
||||
@ -27,15 +61,3 @@ V prípade záujmu je možné pracovať na úlohe strojového prekladu.
|
||||
|
||||
Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora
|
||||
|
||||
## Diplomová práca 2021
|
||||
|
||||
*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre opravu preklepov
|
||||
|
||||
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
|
||||
|
||||
*Zadanie diplomovej práce*:
|
||||
|
||||
1. Vypracujte teoretický prehľad metód "sequence to sequence".
|
||||
2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu opravy preklepov.
|
||||
3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.
|
||||
4. Na základe výsledkov experimentov navrhnite zlepšenia.
|
40
pages/students/2016/tomas_kucharik/README.md
Normal file
40
pages/students/2016/tomas_kucharik/README.md
Normal file
@ -0,0 +1,40 @@
|
||||
# Tomáš Kuchárik
|
||||
(študent KPI)
|
||||
|
||||
## Diplomový projekt 1
|
||||
|
||||
Úlohy na semester:
|
||||
|
||||
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
|
||||
- Vybrať prvú množinu článkov
|
||||
- Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
|
||||
- Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
|
||||
- Možno: natrénovať model z anglických alebo slovenských dát.
|
||||
|
||||
Úvodné stretnutie 6.3.2020.
|
||||
|
||||
Porozmýšľať:
|
||||
|
||||
- Ako vyberieme najlepšie články (PageRank?)
|
||||
- Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.
|
||||
|
||||
Úlohy pre vedúceho:
|
||||
|
||||
- Vytvoriť spoločný repozitár Prodigy
|
||||
- Vytvoriť Wiki stránku a spoločný repozitár pre projekt
|
||||
|
||||
Úlohy na ďalšie stretnutie:
|
||||
|
||||
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html.
|
||||
- Študovať odborné články na tému Question Answering
|
||||
- Oboznámiť sa s https://github.com/5hirish/adam_qas
|
||||
- Oboznámte sa s frameworkom Spacy a Prodigy.
|
||||
|
||||
|
||||
## Diplomová práca 2021
|
||||
|
||||
Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka
|
||||
|
||||
Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"
|
||||
|
||||
Anotácia pomocou systému [Prodigy](https://prodi.gy/docs)
|
47
pages/topics/question/README.md
Normal file
47
pages/topics/question/README.md
Normal file
@ -0,0 +1,47 @@
|
||||
# Question Answering
|
||||
|
||||
## Implementácie
|
||||
|
||||
- https://github.com/facebookresearch/DrQA
|
||||
- https://github.com/brmson/yodaqa
|
||||
- https://github.com/5hirish/adam_qas
|
||||
|
||||
## Bibliografia
|
||||
|
||||
- Reading Wikipedia to Answer Open-Domain Questions, Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes
|
||||
Facebook Research
|
||||
- SQuAD: 100,000+ Questions for Machine Comprehension of Text https://arxiv.org/abs/1606.05250
|
||||
|
||||
|
||||
## Dáta
|
||||
|
||||
- Squad TheStanfordQuestionAnsweringDataset(SQuAD) (Rajpurkar et al., 2016)
|
||||
- WebQuestions
|
||||
- https://en.wikipedia.org/wiki/Freebase
|
||||
|
||||
|
||||
## Príprava dátovej množiny
|
||||
|
||||
1. Získanie a parsovanie Wiki Dump
|
||||
2. Výber vhodných paragrafov (1. paragraf?)
|
||||
|
||||
Zoznam 75 najlepších článkov https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_najlep%C5%A1%C3%ADch_%C4%8Dl%C3%A1nkov
|
||||
Zoznam 167 dobrých článkov
|
||||
https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_dobr%C3%BDch_%C4%8Dl%C3%A1nkov
|
||||
Wikipedia: vedeli ste že? (facts) https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zauj%C3%ADmavosti
|
||||
|
||||
## Príprava crowdsourcing systému
|
||||
|
||||
? Bootstrapping slovenského Spacy Modelu
|
||||
Deployment web aplikácie
|
||||
Setup anotačnej úlohy 1, 2, 3
|
||||
Databáza anotátorov pre evidenciu pracovných výstupov
|
||||
Príprava manuálu pre anotátorov
|
||||
|
||||
Aplikácia pre vyhodnotenie výsledkov anotácie - kto anotoval koľko, koľko je anotované spolu
|
||||
|
||||
### Anotácia
|
||||
|
||||
Vytvorenie otázky k paragrafu
|
||||
Vyznačenie odpovede na otázku v paragrafe
|
||||
Vyznačenie pomenovaných entít?
|
Loading…
Reference in New Issue
Block a user