forked from KEMT/zpwiki
		
	zz
This commit is contained in:
		
						commit
						40d1fb9075
					
				@ -32,16 +32,12 @@ Stretnutie 20.2.2020
 | 
			
		||||
- 2. Vybrať a implementovať neurónovú sieť
 | 
			
		||||
- 3. Vykonať sadu experimentov na overenie presnosti klasifikácie zvolenej neurónovej siete
 | 
			
		||||
 | 
			
		||||
Úlohy na ďalšie stretnutie:
 | 
			
		||||
 | 
			
		||||
Pozrieť si: 
 | 
			
		||||
Úlohy na ďalšie stretnutie: 
 | 
			
		||||
 | 
			
		||||
- Ako zmeniť postupnosť slov na postupnosť vektorov? 
 | 
			
		||||
- slovo na číslo https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f
 | 
			
		||||
- [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f)
 | 
			
		||||
- Ako použiť postupnosť vektorov na natrénovanie neurónovej siete?
 | 
			
		||||
- https://pytorch.org/text/
 | 
			
		||||
- Sequence Tagging
 | 
			
		||||
- Vocab
 | 
			
		||||
- [Sequence Tagging, Vocab](https://pytorch.org/text/)
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
## Návrh na zadanie DP
 | 
			
		||||
 | 
			
		||||
@ -2,6 +2,40 @@
 | 
			
		||||
 | 
			
		||||
*Rok začiatku štúdia*: 2016
 | 
			
		||||
 | 
			
		||||
## Diplomový projekt 1 2020
 | 
			
		||||
 | 
			
		||||
Literatúra:
 | 
			
		||||
 | 
			
		||||
[Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037)
 | 
			
		||||
 | 
			
		||||
Úlohy na semester:
 | 
			
		||||
 | 
			
		||||
- Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
 | 
			
		||||
- Natrénovať a vyhodnotiť Fairseq Model
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
Stretnutie 6.3.2020.
 | 
			
		||||
 | 
			
		||||
Úloha na ďalšie stretnutie:
 | 
			
		||||
 | 
			
		||||
- spustiť Trénovanie Fairseq na idoc
 | 
			
		||||
- Pozrieť dostupné [jazykové zdroje](/topics/resources)
 | 
			
		||||
- Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/)
 | 
			
		||||
- Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md
 | 
			
		||||
 | 
			
		||||
## Diplomová práca 2021
 | 
			
		||||
 | 
			
		||||
*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre strojový preklad
 | 
			
		||||
 | 
			
		||||
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
 | 
			
		||||
 | 
			
		||||
*Zadanie diplomovej práce*: 
 | 
			
		||||
 | 
			
		||||
1. Vypracujte teoretický prehľad metód "sequence to sequence".
 | 
			
		||||
2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu.
 | 
			
		||||
3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine. 
 | 
			
		||||
4. Na základe výsledkov experimentov navrhnite zlepšenia.
 | 
			
		||||
 | 
			
		||||
## Tímový projekt 2019
 | 
			
		||||
 | 
			
		||||
*Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md)
 | 
			
		||||
@ -27,15 +61,3 @@ V prípade záujmu je možné pracovať na úlohe strojového prekladu.
 | 
			
		||||
 | 
			
		||||
Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora
 | 
			
		||||
 | 
			
		||||
## Diplomová práca 2021
 | 
			
		||||
 | 
			
		||||
*Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre opravu preklepov
 | 
			
		||||
 | 
			
		||||
*Meno vedúceho*: Ing. Daniel Hládek, PhD.
 | 
			
		||||
 | 
			
		||||
*Zadanie diplomovej práce*: 
 | 
			
		||||
 | 
			
		||||
1. Vypracujte teoretický prehľad metód "sequence to sequence".
 | 
			
		||||
2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu opravy preklepov.
 | 
			
		||||
3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine. 
 | 
			
		||||
4. Na základe výsledkov experimentov navrhnite zlepšenia.
 | 
			
		||||
							
								
								
									
										40
									
								
								pages/students/2016/tomas_kucharik/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										40
									
								
								pages/students/2016/tomas_kucharik/README.md
									
									
									
									
									
										Normal file
									
								
							@ -0,0 +1,40 @@
 | 
			
		||||
# Tomáš Kuchárik
 | 
			
		||||
(študent KPI)
 | 
			
		||||
 | 
			
		||||
## Diplomový projekt 1
 | 
			
		||||
 | 
			
		||||
Úlohy na semester:
 | 
			
		||||
 | 
			
		||||
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html
 | 
			
		||||
- Vybrať prvú množinu článkov
 | 
			
		||||
- Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede.
 | 
			
		||||
- Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii
 | 
			
		||||
- Možno: natrénovať model z anglických alebo slovenských dát.
 | 
			
		||||
 | 
			
		||||
Úvodné stretnutie 6.3.2020.
 | 
			
		||||
 | 
			
		||||
Porozmýšľať:
 | 
			
		||||
 | 
			
		||||
- Ako vyberieme najlepšie články (PageRank?)
 | 
			
		||||
- Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy. 
 | 
			
		||||
 | 
			
		||||
Úlohy pre vedúceho:
 | 
			
		||||
 | 
			
		||||
- Vytvoriť spoločný repozitár Prodigy
 | 
			
		||||
- Vytvoriť Wiki stránku a spoločný repozitár pre projekt
 | 
			
		||||
 | 
			
		||||
Úlohy na ďalšie stretnutie:
 | 
			
		||||
 | 
			
		||||
- Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html.
 | 
			
		||||
- Študovať odborné články na tému Question Answering
 | 
			
		||||
- Oboznámiť sa s https://github.com/5hirish/adam_qas
 | 
			
		||||
- Oboznámte sa s frameworkom Spacy a Prodigy.
 | 
			
		||||
 
 | 
			
		||||
 | 
			
		||||
## Diplomová práca 2021
 | 
			
		||||
 | 
			
		||||
Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka
 | 
			
		||||
 | 
			
		||||
Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov"
 | 
			
		||||
 | 
			
		||||
Anotácia pomocou systému [Prodigy](https://prodi.gy/docs)
 | 
			
		||||
							
								
								
									
										47
									
								
								pages/topics/question/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										47
									
								
								pages/topics/question/README.md
									
									
									
									
									
										Normal file
									
								
							@ -0,0 +1,47 @@
 | 
			
		||||
# Question Answering
 | 
			
		||||
 | 
			
		||||
## Implementácie
 | 
			
		||||
 | 
			
		||||
- https://github.com/facebookresearch/DrQA
 | 
			
		||||
- https://github.com/brmson/yodaqa
 | 
			
		||||
- https://github.com/5hirish/adam_qas
 | 
			
		||||
 | 
			
		||||
## Bibliografia
 | 
			
		||||
 | 
			
		||||
- Reading Wikipedia to Answer Open-Domain Questions, Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes
 | 
			
		||||
Facebook Research
 | 
			
		||||
- SQuAD: 100,000+ Questions for Machine Comprehension of Text https://arxiv.org/abs/1606.05250
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
## Dáta
 | 
			
		||||
 | 
			
		||||
- Squad TheStanfordQuestionAnsweringDataset(SQuAD)  (Rajpurkar  et  al.,  2016) 
 | 
			
		||||
- WebQuestions
 | 
			
		||||
- https://en.wikipedia.org/wiki/Freebase
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
## Príprava dátovej množiny
 | 
			
		||||
 | 
			
		||||
1. Získanie a parsovanie Wiki Dump
 | 
			
		||||
2. Výber vhodných paragrafov (1. paragraf?)
 | 
			
		||||
 | 
			
		||||
Zoznam 75 najlepších článkov https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_najlep%C5%A1%C3%ADch_%C4%8Dl%C3%A1nkov
 | 
			
		||||
Zoznam 167 dobrých článkov
 | 
			
		||||
https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_dobr%C3%BDch_%C4%8Dl%C3%A1nkov 
 | 
			
		||||
Wikipedia: vedeli ste že? (facts) https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zauj%C3%ADmavosti
 | 
			
		||||
 | 
			
		||||
## Príprava crowdsourcing systému
 | 
			
		||||
 | 
			
		||||
? Bootstrapping slovenského Spacy Modelu
 | 
			
		||||
Deployment web aplikácie
 | 
			
		||||
Setup anotačnej úlohy 1, 2, 3
 | 
			
		||||
Databáza anotátorov pre evidenciu pracovných výstupov
 | 
			
		||||
Príprava manuálu pre anotátorov
 | 
			
		||||
 | 
			
		||||
Aplikácia pre vyhodnotenie výsledkov anotácie - kto anotoval koľko, koľko je anotované spolu
 | 
			
		||||
 | 
			
		||||
### Anotácia
 | 
			
		||||
 | 
			
		||||
Vytvorenie otázky k paragrafu
 | 
			
		||||
Vyznačenie odpovede na otázku v paragrafe
 | 
			
		||||
Vyznačenie pomenovaných entít?
 | 
			
		||||
		Loading…
	
		Reference in New Issue
	
	Block a user