forked from KEMT/zpwiki
		
	Add 'pages/students/2019/michal_stromko/dp2024/Evaluation_IR.md'
This commit is contained in:
		
							parent
							
								
									70510dc906
								
							
						
					
					
						commit
						cbab37d7a6
					
				
							
								
								
									
										22
									
								
								pages/students/2019/michal_stromko/dp2024/Evaluation_IR.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										22
									
								
								pages/students/2019/michal_stromko/dp2024/Evaluation_IR.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,22 @@ | ||||
| # Prehľad existujúcich databáz pre vyhodnotenie vyhľadávania | ||||
| 
 | ||||
| - Začiatok IR sa datuje až do 60. rokov 20-teho storočia -> prvé Granfields experiments | ||||
| - V roku 1968 Gerrard Salton vynašiel model vektorového priestoru, definoval, že IR je oblasť týkajúca sa genrovania, ukladania, klasifikácie, analýzy a vyhľadávania  | ||||
| 
 | ||||
|  | ||||
| 
 | ||||
| Najrošírenejšie databázy | ||||
| - TREC (Text Retrieval Conference) vzniklo tu viacero datasetov pre sémantické vyhľadávanie | ||||
| - Cranfield Collection  | ||||
| - ClueWeb Datasets, existujú viacré verzie.  | ||||
|     - ClueWeb09 - 1 040 809 705 webových stránok v 10 tich jazykoch | ||||
|     - ClueWeb12 - 733 019 372 webových stránok v angličtine | ||||
|     - ClueWeb22 - projekt Lemur 10 miliárd webových stránok | ||||
| - MS MARCO - dataset zameraný na hĺbkové učenie, prvý súbor obsahoval 100 tisíc skutočných otázok BING a odpovede generované ľuďmi  | ||||
| - CORD-19 - je to databáza súboru údajov, ktorá bola vytvorená výskumnými skupinami na tému COVID 19. Jej zdroje tvoria viac ako jeden milión článkov  | ||||
| - SQUAD dataset  | ||||
|     - je tvorený dátami z Wikipédie, kde existuje na každú otázku opoveď vo verzii jeden.  | ||||
|     - vo verzii 2 sa nachádza 100 000 otázok zo SQuAD1.1 s viac ako 50 000 nezodpovedateľnými otázkami, ale sú napísané tak, aby to vyzeralo, že na danú otázku odpoveď existuje | ||||
|     - bol vytvorený v anglickom jazyku a existujú aj jeho iné varianty v iných jazykoch | ||||
|     - je vytorený aj multijazyčný squad má názov xquad skladá sa z jazykov Angličtina, Nemčina, Španielčina, Turečtina a ďalšie | ||||
|     - ako posledný je squad v slovenčine squad-sk | ||||
		Loading…
	
		Reference in New Issue
	
	Block a user