- الوصف :
BEIR هو معيار غير متجانس يحتوي على مهام IR المتنوعة. كما أنه يوفر إطارًا شائعًا وسهلاً لتقييم نماذج الاسترجاع المعتمدة على البرمجة اللغوية العصبية داخل المعيار.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/beir-cellar/beir
كود المصدر :
tfds.datasets.beir.Builder
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
هيكل الميزة :
FeaturesDict({
'passage': Text(shape=(), dtype=string),
'passage_id': Text(shape=(), dtype=string),
'passage_metadata': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
'query_id': Text(shape=(), dtype=string),
'query_metadata': Text(shape=(), dtype=string),
'score': float32,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
الممر | نص | سلسلة | ||
معرف_مرور | نص | سلسلة | ||
مرور البيانات الوصفية | نص | سلسلة | ||
استفسار | نص | سلسلة | ||
معرّف_ الاستعلام | نص | سلسلة | ||
الاستعلام_البيانات الوصفية | نص | سلسلة | ||
نتيجة | موتر | تعويم 32 |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{
thakur2021beir,
title={ {BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
year={2021},
url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}
beir / msmarco (التكوين الافتراضي)
حجم التحميل :
1.01 GiB
حجم مجموعة البيانات :
4.53 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 8،841،823 |
'query' | 509962 |
'test' | 9139 |
'train' | 516472 |
'validation' | 7،433 |
- أمثلة ( tfds.as_dataframe ):
beir / trec_covid
حجم التحميل :
70.45 MiB
حجم مجموعة البيانات :
292.04 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 1717332 |
'query' | 50 |
'test' | 35480 |
- أمثلة ( tfds.as_dataframe ):
بير / نفكوربوس
حجم التحميل :
2.34 MiB
حجم مجموعة البيانات :
24.94 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 3،633 |
'query' | 3237 |
'test' | 3،128 |
'train' | 3588 |
'validation' | 3،119 |
- أمثلة ( tfds.as_dataframe ):
بير / nq
حجم التحميل :
475.22 MiB
حجم مجموعة البيانات :
1.66 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 2،681،468 |
'query' | 3،452 |
'test' | 4201 |
- أمثلة ( tfds.as_dataframe ):
بير / هوتبوتكا
حجم التحميل :
623.73 MiB
حجم مجموعة البيانات :
2.64 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 5233329 |
'query' | 97852 |
'test' | 13.783 |
'train' | 101307 |
'validation' | 10،335 |
- أمثلة ( tfds.as_dataframe ):
بير / الفقه
حجم التحميل :
17.12 MiB
حجم مجموعة البيانات :
73.39 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 57638 |
'query' | 6648 |
'test' | 1،706 |
'train' | 14166 |
'validation' | 1،238 |
- أمثلة ( tfds.as_dataframe ):
بير / أرغوانا
حجم التحميل :
3.60 MiB
حجم مجموعة البيانات :
15.08 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 8674 |
'query' | 1،406 |
'test' | 1،401 |
- أمثلة ( tfds.as_dataframe ):
بير / webis_touche2020
حجم التحميل :
216.61 MiB
حجم مجموعة البيانات :
747.57 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 382.545 |
'query' | 49 |
'test' | 2،099 |
- أمثلة ( tfds.as_dataframe ):
beir / cqadupstack.android
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
883.49 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 22998 |
'query' | 699 |
'test' | 1،696 |
- أمثلة ( tfds.as_dataframe ):
beir / cqadupstack.english
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
3.78 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 40221 |
'query' | 1،570 |
'test' | 3،765 |
- أمثلة ( tfds.as_dataframe ):
beir / cqadupstack.gaming
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
2.64 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 45301 |
'query' | 1،595 |
'test' | 2،263 |
- أمثلة ( tfds.as_dataframe ):
beir / cqadupstack.gis
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
1.47 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 37637 |
'query' | 885 |
'test' | 1114 |
- أمثلة ( tfds.as_dataframe ):
beir / cqadupstack.mathematica
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
1.58 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 16705 |
'query' | 804 |
'test' | 1،358 |
- أمثلة ( tfds.as_dataframe ):
beir / cqadupstack.physics
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
2.02 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 38316 |
'query' | 1،039 |
'test' | 1،933 |
- أمثلة ( tfds.as_dataframe ):
beir / cqadupstack.programmers
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
2.14 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 32176 |
'query' | 876 |
'test' | 1،675 |
- أمثلة ( tfds.as_dataframe ):
beir / cqadupstack.stats
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
941.07 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 42269 |
'query' | 652 |
'test' | 913 |
- أمثلة ( tfds.as_dataframe ):
beir / cqadupstack.tex
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
21.75 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 68184 |
'query' | 2906 |
'test' | 5154 |
- أمثلة ( tfds.as_dataframe ):
بير / cqadupstack.unix
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
2.04 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 47382 |
'query' | 1.072 |
'test' | 1،693 |
- أمثلة ( tfds.as_dataframe ):
beir / cqadupstack.webmasters
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
650.08 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 17405 |
'query' | 506 |
'test' | 1،395 |
- أمثلة ( tfds.as_dataframe ):
بير / cqadupstack.wordpress
حجم التحميل :
4.98 GiB
حجم مجموعة البيانات :
726.15 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 48605 |
'query' | 541 |
'test' | 744 |
- أمثلة ( tfds.as_dataframe ):
بير / كورا
حجم التحميل :
15.12 MiB
حجم مجموعة البيانات :
121.33 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 522931 |
'query' | 15000 |
'test' | 15675 |
'validation' | 7626 |
- أمثلة ( tfds.as_dataframe ):
بير / dbpedia_entity
حجم التحميل :
609.67 MiB
حجم مجموعة البيانات :
2.47 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 4،635،922 |
'query' | 467 |
'test' | 40724 |
'validation' | 5658 |
- أمثلة ( tfds.as_dataframe ):
بير / scidocs
حجم التحميل :
135.87 MiB
حجم مجموعة البيانات :
573.04 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 25657 |
'query' | 1،000 |
'test' | 25657 |
- أمثلة ( tfds.as_dataframe ):
بير / حمى
حجم التحميل :
1.15 GiB
حجم مجموعة البيانات :
3.70 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 5،416،568 |
'query' | 123،142 |
'test' | 1499 |
'train' | 12.547 |
'validation' | 1460 |
- أمثلة ( tfds.as_dataframe ):
بير / حمى المناخ
حجم التحميل :
1.14 GiB
حجم مجموعة البيانات :
3.64 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 5،416،593 |
'query' | 1،535 |
'test' | 1،344 |
- أمثلة ( tfds.as_dataframe ):
بير / scifact
حجم التحميل :
2.69 MiB
حجم مجموعة البيانات :
10.16 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'passage' | 5،183 |
'query' | 1،109 |
'test' | 283 |
'train' | 565 |
- أمثلة ( tfds.as_dataframe ):