forked from KEMT/zpwiki
		
	zz
This commit is contained in:
		
						commit
						40d1fb9075
					
				| @ -34,14 +34,10 @@ Stretnutie 20.2.2020 | ||||
| 
 | ||||
| Úlohy na ďalšie stretnutie:  | ||||
| 
 | ||||
| Pozrieť si:  | ||||
| 
 | ||||
| - Ako zmeniť postupnosť slov na postupnosť vektorov?  | ||||
| - slovo na číslo https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f | ||||
| - [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f) | ||||
| - Ako použiť postupnosť vektorov na natrénovanie neurónovej siete? | ||||
| - https://pytorch.org/text/ | ||||
| - Sequence Tagging | ||||
| - Vocab | ||||
| - [Sequence Tagging, Vocab](https://pytorch.org/text/) | ||||
| 
 | ||||
| 
 | ||||
| ## Návrh na zadanie DP | ||||
|  | ||||
| @ -2,6 +2,40 @@ | ||||
| 
 | ||||
| *Rok začiatku štúdia*: 2016 | ||||
| 
 | ||||
| ## Diplomový projekt 1 2020 | ||||
| 
 | ||||
| Literatúra: | ||||
| 
 | ||||
| [Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037) | ||||
| 
 | ||||
| Úlohy na semester: | ||||
| 
 | ||||
| - Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny | ||||
| - Natrénovať a vyhodnotiť Fairseq Model | ||||
| 
 | ||||
| 
 | ||||
| Stretnutie 6.3.2020. | ||||
| 
 | ||||
| Úloha na ďalšie stretnutie: | ||||
| 
 | ||||
| - spustiť Trénovanie Fairseq na idoc | ||||
| - Pozrieť dostupné [jazykové zdroje](/topics/resources) | ||||
| - Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/) | ||||
| - Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md | ||||
| 
 | ||||
| ## Diplomová práca 2021 | ||||
| 
 | ||||
| *Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre strojový preklad | ||||
| 
 | ||||
| *Meno vedúceho*: Ing. Daniel Hládek, PhD. | ||||
| 
 | ||||
| *Zadanie diplomovej práce*:  | ||||
| 
 | ||||
| 1. Vypracujte teoretický prehľad metód "sequence to sequence". | ||||
| 2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu. | ||||
| 3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.  | ||||
| 4. Na základe výsledkov experimentov navrhnite zlepšenia. | ||||
| 
 | ||||
| ## Tímový projekt 2019 | ||||
| 
 | ||||
| *Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md) | ||||
| @ -27,15 +61,3 @@ V prípade záujmu je možné pracovať na úlohe strojového prekladu. | ||||
| 
 | ||||
| Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora | ||||
| 
 | ||||
| ## Diplomová práca 2021 | ||||
| 
 | ||||
| *Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre opravu preklepov | ||||
| 
 | ||||
| *Meno vedúceho*: Ing. Daniel Hládek, PhD. | ||||
| 
 | ||||
| *Zadanie diplomovej práce*:  | ||||
| 
 | ||||
| 1. Vypracujte teoretický prehľad metód "sequence to sequence". | ||||
| 2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu opravy preklepov. | ||||
| 3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.  | ||||
| 4. Na základe výsledkov experimentov navrhnite zlepšenia. | ||||
							
								
								
									
										40
									
								
								pages/students/2016/tomas_kucharik/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										40
									
								
								pages/students/2016/tomas_kucharik/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,40 @@ | ||||
| # Tomáš Kuchárik | ||||
| (študent KPI) | ||||
| 
 | ||||
| ## Diplomový projekt 1 | ||||
| 
 | ||||
| Úlohy na semester: | ||||
| 
 | ||||
| - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html | ||||
| - Vybrať prvú množinu článkov | ||||
| - Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede. | ||||
| - Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii | ||||
| - Možno: natrénovať model z anglických alebo slovenských dát. | ||||
| 
 | ||||
| Úvodné stretnutie 6.3.2020. | ||||
| 
 | ||||
| Porozmýšľať: | ||||
| 
 | ||||
| - Ako vyberieme najlepšie články (PageRank?) | ||||
| - Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.  | ||||
| 
 | ||||
| Úlohy pre vedúceho: | ||||
| 
 | ||||
| - Vytvoriť spoločný repozitár Prodigy | ||||
| - Vytvoriť Wiki stránku a spoločný repozitár pre projekt | ||||
| 
 | ||||
| Úlohy na ďalšie stretnutie: | ||||
| 
 | ||||
| - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html. | ||||
| - Študovať odborné články na tému Question Answering | ||||
| - Oboznámiť sa s https://github.com/5hirish/adam_qas | ||||
| - Oboznámte sa s frameworkom Spacy a Prodigy. | ||||
|   | ||||
| 
 | ||||
| ## Diplomová práca 2021 | ||||
| 
 | ||||
| Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka | ||||
| 
 | ||||
| Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov" | ||||
| 
 | ||||
| Anotácia pomocou systému [Prodigy](https://prodi.gy/docs) | ||||
							
								
								
									
										47
									
								
								pages/topics/question/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										47
									
								
								pages/topics/question/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,47 @@ | ||||
| # Question Answering | ||||
| 
 | ||||
| ## Implementácie | ||||
| 
 | ||||
| - https://github.com/facebookresearch/DrQA | ||||
| - https://github.com/brmson/yodaqa | ||||
| - https://github.com/5hirish/adam_qas | ||||
| 
 | ||||
| ## Bibliografia | ||||
| 
 | ||||
| - Reading Wikipedia to Answer Open-Domain Questions, Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes | ||||
| Facebook Research | ||||
| - SQuAD: 100,000+ Questions for Machine Comprehension of Text https://arxiv.org/abs/1606.05250 | ||||
| 
 | ||||
| 
 | ||||
| ## Dáta | ||||
| 
 | ||||
| - Squad TheStanfordQuestionAnsweringDataset(SQuAD)  (Rajpurkar  et  al.,  2016)  | ||||
| - WebQuestions | ||||
| - https://en.wikipedia.org/wiki/Freebase | ||||
| 
 | ||||
| 
 | ||||
| ## Príprava dátovej množiny | ||||
| 
 | ||||
| 1. Získanie a parsovanie Wiki Dump | ||||
| 2. Výber vhodných paragrafov (1. paragraf?) | ||||
| 
 | ||||
| Zoznam 75 najlepších článkov https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_najlep%C5%A1%C3%ADch_%C4%8Dl%C3%A1nkov | ||||
| Zoznam 167 dobrých článkov | ||||
| https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_dobr%C3%BDch_%C4%8Dl%C3%A1nkov  | ||||
| Wikipedia: vedeli ste že? (facts) https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zauj%C3%ADmavosti | ||||
| 
 | ||||
| ## Príprava crowdsourcing systému | ||||
| 
 | ||||
| ? Bootstrapping slovenského Spacy Modelu | ||||
| Deployment web aplikácie | ||||
| Setup anotačnej úlohy 1, 2, 3 | ||||
| Databáza anotátorov pre evidenciu pracovných výstupov | ||||
| Príprava manuálu pre anotátorov | ||||
| 
 | ||||
| Aplikácia pre vyhodnotenie výsledkov anotácie - kto anotoval koľko, koľko je anotované spolu | ||||
| 
 | ||||
| ### Anotácia | ||||
| 
 | ||||
| Vytvorenie otázky k paragrafu | ||||
| Vyznačenie odpovede na otázku v paragrafe | ||||
| Vyznačenie pomenovaných entít? | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user