22 lines
1.6 KiB
Markdown
22 lines
1.6 KiB
Markdown
|
# Prehľad existujúcich databáz pre vyhodnotenie vyhľadávania
|
||
|
|
||
|
- Začiatok IR sa datuje až do 60. rokov 20-teho storočia -> prvé Granfields experiments
|
||
|
- V roku 1968 Gerrard Salton vynašiel model vektorového priestoru, definoval, že IR je oblasť týkajúca sa genrovania, ukladania, klasifikácie, analýzy a vyhľadávania
|
||
|
|
||
|
![Research Timeline](images/research_timeline.png)
|
||
|
|
||
|
Najrošírenejšie databázy
|
||
|
- TREC (Text Retrieval Conference) vzniklo tu viacero datasetov pre sémantické vyhľadávanie
|
||
|
- Cranfield Collection
|
||
|
- ClueWeb Datasets, existujú viacré verzie.
|
||
|
- ClueWeb09 - 1 040 809 705 webových stránok v 10 tich jazykoch
|
||
|
- ClueWeb12 - 733 019 372 webových stránok v angličtine
|
||
|
- ClueWeb22 - projekt Lemur 10 miliárd webových stránok
|
||
|
- MS MARCO - dataset zameraný na hĺbkové učenie, prvý súbor obsahoval 100 tisíc skutočných otázok BING a odpovede generované ľuďmi
|
||
|
- CORD-19 - je to databáza súboru údajov, ktorá bola vytvorená výskumnými skupinami na tému COVID 19. Jej zdroje tvoria viac ako jeden milión článkov
|
||
|
- SQUAD dataset
|
||
|
- je tvorený dátami z Wikipédie, kde existuje na každú otázku opoveď vo verzii jeden.
|
||
|
- vo verzii 2 sa nachádza 100 000 otázok zo SQuAD1.1 s viac ako 50 000 nezodpovedateľnými otázkami, ale sú napísané tak, aby to vyzeralo, že na danú otázku odpoveď existuje
|
||
|
- bol vytvorený v anglickom jazyku a existujú aj jeho iné varianty v iných jazykoch
|
||
|
- je vytorený aj multijazyčný squad má názov xquad skladá sa z jazykov Angličtina, Nemčina, Španielčina, Turečtina a ďalšie
|
||
|
- ako posledný je squad v slovenčine squad-sk
|