بير

  • الوصف :

BEIR هو معيار غير متجانس يحتوي على مهام IR المتنوعة. كما أنه يوفر إطارًا شائعًا وسهلاً لتقييم نماذج الاسترجاع المعتمدة على البرمجة اللغوية العصبية داخل المعيار.

FeaturesDict({
    'passage': Text(shape=(), dtype=string),
    'passage_id': Text(shape=(), dtype=string),
    'passage_metadata': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
    'query_id': Text(shape=(), dtype=string),
    'query_metadata': Text(shape=(), dtype=string),
    'score': float32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الممر نص سلسلة
معرف_مرور نص سلسلة
مرور البيانات الوصفية نص سلسلة
استفسار نص سلسلة
معرّف_ الاستعلام نص سلسلة
الاستعلام_البيانات الوصفية نص سلسلة
نتيجة موتر تعويم 32
@inproceedings{
    thakur2021beir,
    title={ {BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
    author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
    booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
    year={2021},
    url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}

beir / msmarco (التكوين الافتراضي)

  • حجم التحميل : 1.01 GiB

  • حجم مجموعة البيانات : 4.53 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 8،841،823
'query' 509962
'test' 9139
'train' 516472
'validation' 7،433

beir / trec_covid

  • حجم التحميل : 70.45 MiB

  • حجم مجموعة البيانات : 292.04 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 1717332
'query' 50
'test' 35480

بير / نفكوربوس

  • حجم التحميل : 2.34 MiB

  • حجم مجموعة البيانات : 24.94 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'passage' 3،633
'query' 3237
'test' 3،128
'train' 3588
'validation' 3،119

بير / nq

  • حجم التحميل : 475.22 MiB

  • حجم مجموعة البيانات : 1.66 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 2،681،468
'query' 3،452
'test' 4201

بير / هوتبوتكا

  • حجم التحميل : 623.73 MiB

  • حجم مجموعة البيانات : 2.64 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 5233329
'query' 97852
'test' 13.783
'train' 101307
'validation' 10،335

بير / الفقه

  • حجم التحميل : 17.12 MiB

  • حجم مجموعة البيانات : 73.39 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'passage' 57638
'query' 6648
'test' 1،706
'train' 14166
'validation' 1،238

بير / أرغوانا

  • حجم التحميل : 3.60 MiB

  • حجم مجموعة البيانات : 15.08 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'passage' 8674
'query' 1،406
'test' 1،401

بير / webis_touche2020

  • حجم التحميل : 216.61 MiB

  • حجم مجموعة البيانات : 747.57 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 382.545
'query' 49
'test' 2،099

beir / cqadupstack.android

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 883.49 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 22998
'query' 699
'test' 1،696

beir / cqadupstack.english

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 3.78 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 40221
'query' 1،570
'test' 3،765

beir / cqadupstack.gaming

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 2.64 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 45301
'query' 1،595
'test' 2،263

beir / cqadupstack.gis

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 1.47 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 37637
'query' 885
'test' 1114

beir / cqadupstack.mathematica

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 1.58 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 16705
'query' 804
'test' 1،358

beir / cqadupstack.physics

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 2.02 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 38316
'query' 1،039
'test' 1،933

beir / cqadupstack.programmers

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 2.14 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 32176
'query' 876
'test' 1،675

beir / cqadupstack.stats

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 941.07 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 42269
'query' 652
'test' 913

beir / cqadupstack.tex

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 21.75 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 68184
'query' 2906
'test' 5154

بير / cqadupstack.unix

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 2.04 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 47382
'query' 1.072
'test' 1،693

beir / cqadupstack.webmasters

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 650.08 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 17405
'query' 506
'test' 1،395

بير / cqadupstack.wordpress

  • حجم التحميل : 4.98 GiB

  • حجم مجموعة البيانات : 726.15 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 48605
'query' 541
'test' 744

بير / كورا

  • حجم التحميل : 15.12 MiB

  • حجم مجموعة البيانات : 121.33 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'passage' 522931
'query' 15000
'test' 15675
'validation' 7626

بير / dbpedia_entity

  • حجم التحميل : 609.67 MiB

  • حجم مجموعة البيانات : 2.47 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 4،635،922
'query' 467
'test' 40724
'validation' 5658

بير / scidocs

  • حجم التحميل : 135.87 MiB

  • حجم مجموعة البيانات : 573.04 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 25657
'query' 1،000
'test' 25657

بير / حمى

  • حجم التحميل : 1.15 GiB

  • حجم مجموعة البيانات : 3.70 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 5،416،568
'query' 123،142
'test' 1499
'train' 12.547
'validation' 1460

بير / حمى المناخ

  • حجم التحميل : 1.14 GiB

  • حجم مجموعة البيانات : 3.64 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'passage' 5،416،593
'query' 1،535
'test' 1،344

بير / scifact

  • حجم التحميل : 2.69 MiB

  • حجم مجموعة البيانات : 10.16 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'passage' 5،183
'query' 1،109
'test' 283
'train' 565