forked from KEMT/zpwiki
		
	zz
This commit is contained in:
		
						commit
						40d1fb9075
					
				| @ -32,16 +32,12 @@ Stretnutie 20.2.2020 | |||||||
| - 2. Vybrať a implementovať neurónovú sieť | - 2. Vybrať a implementovať neurónovú sieť | ||||||
| - 3. Vykonať sadu experimentov na overenie presnosti klasifikácie zvolenej neurónovej siete | - 3. Vykonať sadu experimentov na overenie presnosti klasifikácie zvolenej neurónovej siete | ||||||
| 
 | 
 | ||||||
| Úlohy na ďalšie stretnutie: | Úlohy na ďalšie stretnutie:  | ||||||
| 
 |  | ||||||
| Pozrieť si:  |  | ||||||
| 
 | 
 | ||||||
| - Ako zmeniť postupnosť slov na postupnosť vektorov?  | - Ako zmeniť postupnosť slov na postupnosť vektorov?  | ||||||
| - slovo na číslo https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f | - [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f) | ||||||
| - Ako použiť postupnosť vektorov na natrénovanie neurónovej siete? | - Ako použiť postupnosť vektorov na natrénovanie neurónovej siete? | ||||||
| - https://pytorch.org/text/ | - [Sequence Tagging, Vocab](https://pytorch.org/text/) | ||||||
| - Sequence Tagging |  | ||||||
| - Vocab |  | ||||||
| 
 | 
 | ||||||
| 
 | 
 | ||||||
| ## Návrh na zadanie DP | ## Návrh na zadanie DP | ||||||
|  | |||||||
| @ -2,6 +2,40 @@ | |||||||
| 
 | 
 | ||||||
| *Rok začiatku štúdia*: 2016 | *Rok začiatku štúdia*: 2016 | ||||||
| 
 | 
 | ||||||
|  | ## Diplomový projekt 1 2020 | ||||||
|  | 
 | ||||||
|  | Literatúra: | ||||||
|  | 
 | ||||||
|  | [Neural Network Methods for Natural Language Processing](https://www.morganclaypool.com/doi/abs/10.2200/S00762ED1V01Y201703HLT037) | ||||||
|  | 
 | ||||||
|  | Úlohy na semester: | ||||||
|  | 
 | ||||||
|  | - Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny | ||||||
|  | - Natrénovať a vyhodnotiť Fairseq Model | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | Stretnutie 6.3.2020. | ||||||
|  | 
 | ||||||
|  | Úloha na ďalšie stretnutie: | ||||||
|  | 
 | ||||||
|  | - spustiť Trénovanie Fairseq na idoc | ||||||
|  | - Pozrieť dostupné [jazykové zdroje](/topics/resources) | ||||||
|  | - Pozrieť článok [fairseq: A Fast, Extensible Toolkit for Sequence Modeling](https://www.aclweb.org/anthology/N19-4009/) | ||||||
|  | - Pozrieť prístup a článok https://github.com/pytorch/fairseq/blob/master/examples/joint_alignment_translation/README.md | ||||||
|  | 
 | ||||||
|  | ## Diplomová práca 2021 | ||||||
|  | 
 | ||||||
|  | *Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre strojový preklad | ||||||
|  | 
 | ||||||
|  | *Meno vedúceho*: Ing. Daniel Hládek, PhD. | ||||||
|  | 
 | ||||||
|  | *Zadanie diplomovej práce*:  | ||||||
|  | 
 | ||||||
|  | 1. Vypracujte teoretický prehľad metód "sequence to sequence". | ||||||
|  | 2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu strojového prekladu. | ||||||
|  | 3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.  | ||||||
|  | 4. Na základe výsledkov experimentov navrhnite zlepšenia. | ||||||
|  | 
 | ||||||
| ## Tímový projekt 2019 | ## Tímový projekt 2019 | ||||||
| 
 | 
 | ||||||
| *Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md) | *Písomná práca*: [Rešerš na tému "Sequnce to Sequence"](./timovy_projekt/README.md) | ||||||
| @ -27,15 +61,3 @@ V prípade záujmu je možné pracovať na úlohe strojového prekladu. | |||||||
| 
 | 
 | ||||||
| Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora | Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora | ||||||
| 
 | 
 | ||||||
| ## Diplomová práca 2021 |  | ||||||
| 
 |  | ||||||
| *Názov diplomovej práce*: Prepis postupností pomocou neurónových sietí pre opravu preklepov |  | ||||||
| 
 |  | ||||||
| *Meno vedúceho*: Ing. Daniel Hládek, PhD. |  | ||||||
| 
 |  | ||||||
| *Zadanie diplomovej práce*:  |  | ||||||
| 
 |  | ||||||
| 1. Vypracujte teoretický prehľad metód "sequence to sequence". |  | ||||||
| 2. Pripravte si dátovú množinu na trénovanie modelu sequence to sequence pre úlohu opravy preklepov. |  | ||||||
| 3. Vyberte minimálne dva rôzne modely a porovnajte ich presnosť na vhodnej dátovej množine.  |  | ||||||
| 4. Na základe výsledkov experimentov navrhnite zlepšenia. |  | ||||||
							
								
								
									
										40
									
								
								pages/students/2016/tomas_kucharik/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										40
									
								
								pages/students/2016/tomas_kucharik/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,40 @@ | |||||||
|  | # Tomáš Kuchárik | ||||||
|  | (študent KPI) | ||||||
|  | 
 | ||||||
|  | ## Diplomový projekt 1 | ||||||
|  | 
 | ||||||
|  | Úlohy na semester: | ||||||
|  | 
 | ||||||
|  | - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html | ||||||
|  | - Vybrať prvú množinu článkov | ||||||
|  | - Nasadiť anotačnú aplikáciu - tvorbu otázky a vyznačenie odpovede. | ||||||
|  | - Navrhnúť pracovný postup pre využitie modelu pri ďalšej anotácii | ||||||
|  | - Možno: natrénovať model z anglických alebo slovenských dát. | ||||||
|  | 
 | ||||||
|  | Úvodné stretnutie 6.3.2020. | ||||||
|  | 
 | ||||||
|  | Porozmýšľať: | ||||||
|  | 
 | ||||||
|  | - Ako vyberieme najlepšie články (PageRank?) | ||||||
|  | - Ako premením článok z wikipedie na sadu úloh (task) pre Prodigy.  | ||||||
|  | 
 | ||||||
|  | Úlohy pre vedúceho: | ||||||
|  | 
 | ||||||
|  | - Vytvoriť spoločný repozitár Prodigy | ||||||
|  | - Vytvoriť Wiki stránku a spoločný repozitár pre projekt | ||||||
|  | 
 | ||||||
|  | Úlohy na ďalšie stretnutie: | ||||||
|  | 
 | ||||||
|  | - Získať a parsovať dump slovenskej wikipédie z https://dumps.wikimedia.org/mirrors.html. | ||||||
|  | - Študovať odborné články na tému Question Answering | ||||||
|  | - Oboznámiť sa s https://github.com/5hirish/adam_qas | ||||||
|  | - Oboznámte sa s frameworkom Spacy a Prodigy. | ||||||
|  |   | ||||||
|  | 
 | ||||||
|  | ## Diplomová práca 2021 | ||||||
|  | 
 | ||||||
|  | Vytváranie komplexných korpusov pre aplikácie porozumenia prirodzeného jazyka | ||||||
|  | 
 | ||||||
|  | Cieľom práce je príprava nástrojov a budovanie tzv. "Question Answering datasetov" | ||||||
|  | 
 | ||||||
|  | Anotácia pomocou systému [Prodigy](https://prodi.gy/docs) | ||||||
							
								
								
									
										47
									
								
								pages/topics/question/README.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										47
									
								
								pages/topics/question/README.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,47 @@ | |||||||
|  | # Question Answering | ||||||
|  | 
 | ||||||
|  | ## Implementácie | ||||||
|  | 
 | ||||||
|  | - https://github.com/facebookresearch/DrQA | ||||||
|  | - https://github.com/brmson/yodaqa | ||||||
|  | - https://github.com/5hirish/adam_qas | ||||||
|  | 
 | ||||||
|  | ## Bibliografia | ||||||
|  | 
 | ||||||
|  | - Reading Wikipedia to Answer Open-Domain Questions, Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes | ||||||
|  | Facebook Research | ||||||
|  | - SQuAD: 100,000+ Questions for Machine Comprehension of Text https://arxiv.org/abs/1606.05250 | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | ## Dáta | ||||||
|  | 
 | ||||||
|  | - Squad TheStanfordQuestionAnsweringDataset(SQuAD)  (Rajpurkar  et  al.,  2016)  | ||||||
|  | - WebQuestions | ||||||
|  | - https://en.wikipedia.org/wiki/Freebase | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | ## Príprava dátovej množiny | ||||||
|  | 
 | ||||||
|  | 1. Získanie a parsovanie Wiki Dump | ||||||
|  | 2. Výber vhodných paragrafov (1. paragraf?) | ||||||
|  | 
 | ||||||
|  | Zoznam 75 najlepších článkov https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_najlep%C5%A1%C3%ADch_%C4%8Dl%C3%A1nkov | ||||||
|  | Zoznam 167 dobrých článkov | ||||||
|  | https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zoznam_dobr%C3%BDch_%C4%8Dl%C3%A1nkov  | ||||||
|  | Wikipedia: vedeli ste že? (facts) https://sk.wikipedia.org/wiki/Wikip%C3%A9dia:Zauj%C3%ADmavosti | ||||||
|  | 
 | ||||||
|  | ## Príprava crowdsourcing systému | ||||||
|  | 
 | ||||||
|  | ? Bootstrapping slovenského Spacy Modelu | ||||||
|  | Deployment web aplikácie | ||||||
|  | Setup anotačnej úlohy 1, 2, 3 | ||||||
|  | Databáza anotátorov pre evidenciu pracovných výstupov | ||||||
|  | Príprava manuálu pre anotátorov | ||||||
|  | 
 | ||||||
|  | Aplikácia pre vyhodnotenie výsledkov anotácie - kto anotoval koľko, koľko je anotované spolu | ||||||
|  | 
 | ||||||
|  | ### Anotácia | ||||||
|  | 
 | ||||||
|  | Vytvorenie otázky k paragrafu | ||||||
|  | Vyznačenie odpovede na otázku v paragrafe | ||||||
|  | Vyznačenie pomenovaných entít? | ||||||
		Loading…
	
		Reference in New Issue
	
	Block a user