diff --git a/pages/students/2019/michal_stromko/dp2024/Evaluation_IR.md b/pages/students/2019/michal_stromko/dp2024/Evaluation_IR.md new file mode 100644 index 00000000..b8731a1f --- /dev/null +++ b/pages/students/2019/michal_stromko/dp2024/Evaluation_IR.md @@ -0,0 +1,22 @@ +# Prehľad existujúcich databáz pre vyhodnotenie vyhľadávania + +- Začiatok IR sa datuje až do 60. rokov 20-teho storočia -> prvé Granfields experiments +- V roku 1968 Gerrard Salton vynašiel model vektorového priestoru, definoval, že IR je oblasť týkajúca sa genrovania, ukladania, klasifikácie, analýzy a vyhľadávania + +![Research Timeline](images/research_timeline.png) + +Najrošírenejšie databázy +- TREC (Text Retrieval Conference) vzniklo tu viacero datasetov pre sémantické vyhľadávanie +- Cranfield Collection +- ClueWeb Datasets, existujú viacré verzie. + - ClueWeb09 - 1 040 809 705 webových stránok v 10 tich jazykoch + - ClueWeb12 - 733 019 372 webových stránok v angličtine + - ClueWeb22 - projekt Lemur 10 miliárd webových stránok +- MS MARCO - dataset zameraný na hĺbkové učenie, prvý súbor obsahoval 100 tisíc skutočných otázok BING a odpovede generované ľuďmi +- CORD-19 - je to databáza súboru údajov, ktorá bola vytvorená výskumnými skupinami na tému COVID 19. Jej zdroje tvoria viac ako jeden milión článkov +- SQUAD dataset + - je tvorený dátami z Wikipédie, kde existuje na každú otázku opoveď vo verzii jeden. + - vo verzii 2 sa nachádza 100 000 otázok zo SQuAD1.1 s viac ako 50 000 nezodpovedateľnými otázkami, ale sú napísané tak, aby to vyzeralo, že na danú otázku odpoveď existuje + - bol vytvorený v anglickom jazyku a existujú aj jeho iné varianty v iných jazykoch + - je vytorený aj multijazyčný squad má názov xquad skladá sa z jazykov Angličtina, Nemčina, Španielčina, Turečtina a ďalšie + - ako posledný je squad v slovenčine squad-sk \ No newline at end of file