zpwiki/pages/students/2019/michal_stromko/dp2024/Evaluation_IR.md

# Prehľad existujúcich databáz pre vyhodnotenie vyhľadávania

- Začiatok IR sa datuje až do 60. rokov 20-teho storočia -> prvé Granfields experiments
- V roku 1968 Gerrard Salton vynašiel model vektorového priestoru, definoval, že IR je oblasť týkajúca sa genrovania, ukladania, klasifikácie, analýzy a vyhľadávania 

![Research Timeline](images/research_timeline.png)

Najrošírenejšie databázy
- TREC (Text Retrieval Conference) vzniklo tu viacero datasetov pre sémantické vyhľadávanie
- Cranfield Collection 
- ClueWeb Datasets, existujú viacré verzie. 
    - ClueWeb09 - 1 040 809 705 webových stránok v 10 tich jazykoch
    - ClueWeb12 - 733 019 372 webových stránok v angličtine
    - ClueWeb22 - projekt Lemur 10 miliárd webových stránok
- MS MARCO - dataset zameraný na hĺbkové učenie, prvý súbor obsahoval 100 tisíc skutočných otázok BING a odpovede generované ľuďmi 
- CORD-19 - je to databáza súboru údajov, ktorá bola vytvorená výskumnými skupinami na tému COVID 19. Jej zdroje tvoria viac ako jeden milión článkov 
- SQUAD dataset 
    - je tvorený dátami z Wikipédie, kde existuje na každú otázku opoveď vo verzii jeden. 
    - vo verzii 2 sa nachádza 100 000 otázok zo SQuAD1.1 s viac ako 50 000 nezodpovedateľnými otázkami, ale sú napísané tak, aby to vyzeralo, že na danú otázku odpoveď existuje
    - bol vytvorený v anglickom jazyku a existujú aj jeho iné varianty v iných jazykoch
    - je vytorený aj multijazyčný squad má názov xquad skladá sa z jazykov Angličtina, Nemčina, Španielčina, Turečtina a ďalšie
    - ako posledný je squad v slovenčine squad-sk
Add 'pages/students/2019/michal_stromko/dp2024/Evaluation_IR.md' 2023-10-18 14:18:38 +00:00			`# Prehľad existujúcich databáz pre vyhodnotenie vyhľadávania`

			`- Začiatok IR sa datuje až do 60. rokov 20-teho storočia -> prvé Granfields experiments`
			`- V roku 1968 Gerrard Salton vynašiel model vektorového priestoru, definoval, že IR je oblasť týkajúca sa genrovania, ukladania, klasifikácie, analýzy a vyhľadávania`

			`![Research Timeline](images/research_timeline.png)`

			`Najrošírenejšie databázy`
			`- TREC (Text Retrieval Conference) vzniklo tu viacero datasetov pre sémantické vyhľadávanie`
			`- Cranfield Collection`
			`- ClueWeb Datasets, existujú viacré verzie.`
			`- ClueWeb09 - 1 040 809 705 webových stránok v 10 tich jazykoch`
			`- ClueWeb12 - 733 019 372 webových stránok v angličtine`
			`- ClueWeb22 - projekt Lemur 10 miliárd webových stránok`
			`- MS MARCO - dataset zameraný na hĺbkové učenie, prvý súbor obsahoval 100 tisíc skutočných otázok BING a odpovede generované ľuďmi`
			`- CORD-19 - je to databáza súboru údajov, ktorá bola vytvorená výskumnými skupinami na tému COVID 19. Jej zdroje tvoria viac ako jeden milión článkov`
			`- SQUAD dataset`
			`- je tvorený dátami z Wikipédie, kde existuje na každú otázku opoveď vo verzii jeden.`
			`- vo verzii 2 sa nachádza 100 000 otázok zo SQuAD1.1 s viac ako 50 000 nezodpovedateľnými otázkami, ale sú napísané tak, aby to vyzeralo, že na danú otázku odpoveď existuje`
			`- bol vytvorený v anglickom jazyku a existujú aj jeho iné varianty v iných jazykoch`
			`- je vytorený aj multijazyčný squad má názov xquad skladá sa z jazykov Angličtina, Nemčina, Španielčina, Turečtina a ďalšie`
			`- ako posledný je squad v slovenčine squad-sk`