- Mô tả :
BEIR là một điểm chuẩn không đồng nhất chứa các tác vụ IR đa dạng. Nó cũng cung cấp một khuôn khổ phổ biến và dễ dàng để đánh giá các mô hình truy xuất dựa trên NLP của bạn trong tiêu chuẩn.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/beir-cellar/beir
Mã nguồn :
tfds.datasets.beir.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Cấu trúc tính năng :
FeaturesDict({
'passage': Text(shape=(), dtype=string),
'passage_id': Text(shape=(), dtype=string),
'passage_metadata': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
'query_id': Text(shape=(), dtype=string),
'query_metadata': Text(shape=(), dtype=string),
'score': float32,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
đoạn văn | Chữ | sợi dây | ||
đoạn_id | Chữ | sợi dây | ||
đoạn văn_metadata | Chữ | sợi dây | ||
truy vấn | Chữ | sợi dây | ||
query_id | Chữ | sợi dây | ||
query_metadata | Chữ | sợi dây | ||
ghi bàn | tenxơ | phao32 |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{
thakur2021beir,
title={ {BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
year={2021},
url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}
beir/msmarco (cấu hình mặc định)
Kích thước tải xuống :
1.01 GiB
Kích thước tập dữ liệu :
4.53 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 8.841.823 |
'query' | 509,962 |
'test' | 9.139 |
'train' | 516,472 |
'validation' | 7,433 |
- Ví dụ ( tfds.as_dataframe ):
beir/trec_covid
Kích thước tải xuống :
70.45 MiB
Kích thước tập dữ liệu :
292.04 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 171,332 |
'query' | 50 |
'test' | 35,480 |
- Ví dụ ( tfds.as_dataframe ):
beir/nfcorpus
Kích thước tải xuống :
2.34 MiB
Kích thước tập dữ liệu :
24.94 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 3,633 |
'query' | 3,237 |
'test' | 3.128 |
'train' | 3,588 |
'validation' | 3.119 |
- Ví dụ ( tfds.as_dataframe ):
beir/nq
Kích thước tải xuống :
475.22 MiB
Kích thước tập dữ liệu :
1.66 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 2.681.468 |
'query' | 3,452 |
'test' | 4,201 |
- Ví dụ ( tfds.as_dataframe ):
beir/lẩuqa
Kích thước tải xuống :
623.73 MiB
Kích thước tập dữ liệu :
2.64 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 5,233,329 |
'query' | 97,852 |
'test' | 13,783 |
'train' | 101,307 |
'validation' | 10.335 |
- Ví dụ ( tfds.as_dataframe ):
beir/fiqa
Kích thước tải xuống :
17.12 MiB
Kích thước tập dữ liệu :
73.39 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 57,638 |
'query' | 6,648 |
'test' | 1.706 |
'train' | 14,166 |
'validation' | 1.238 |
- Ví dụ ( tfds.as_dataframe ):
beir/arguana
Kích thước tải xuống :
3.60 MiB
Kích thước tập dữ liệu :
15.08 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 8,674 |
'query' | 1.406 |
'test' | 1.401 |
- Ví dụ ( tfds.as_dataframe ):
beir/webis_touche2020
Kích thước tải xuống :
216.61 MiB
Kích thước tập dữ liệu :
747.57 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 382,545 |
'query' | 49 |
'test' | 2.099 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.android
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
883.49 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 22.998 |
'query' | 699 |
'test' | 1.696 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.english
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
3.78 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 40,221 |
'query' | 1.570 |
'test' | 3,765 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.gaming
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
2.64 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 45,301 |
'query' | 1.595 |
'test' | 2,263 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.gis
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
1.47 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 37,637 |
'query' | 885 |
'test' | 1.114 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.mathematica
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
1.58 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 16,705 |
'query' | 804 |
'test' | 1.358 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.physics
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
2.02 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 38,316 |
'query' | 1.039 |
'test' | 1.933 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.lập trình viên
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
2.14 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 32,176 |
'query' | 876 |
'test' | 1.675 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.stats
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
941.07 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 42,269 |
'query' | 652 |
'test' | 913 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.tex
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
21.75 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 68,184 |
'query' | 2.906 |
'test' | 5,154 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.unix
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
2.04 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 47,382 |
'query' | 1.072 |
'test' | 1.693 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.webmasters
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
650.08 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 17,405 |
'query' | 506 |
'test' | 1.395 |
- Ví dụ ( tfds.as_dataframe ):
beir/cqadupstack.wordpress
Kích thước tải xuống :
4.98 GiB
Kích thước tập dữ liệu :
726.15 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 48,605 |
'query' | 541 |
'test' | 744 |
- Ví dụ ( tfds.as_dataframe ):
beir/quora
Kích thước tải xuống :
15.12 MiB
Kích thước tập dữ liệu :
121.33 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 522,931 |
'query' | 15.000 |
'test' | 15,675 |
'validation' | 7,626 |
- Ví dụ ( tfds.as_dataframe ):
beir/dbpedia_entity
Kích thước tải xuống :
609.67 MiB
Kích thước tập dữ liệu :
2.47 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 4.635.922 |
'query' | 467 |
'test' | 40,724 |
'validation' | 5,658 |
- Ví dụ ( tfds.as_dataframe ):
beir/scidocs
Kích thước tải xuống :
135.87 MiB
Kích thước tập dữ liệu :
573.04 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 25,657 |
'query' | 1.000 |
'test' | 25,657 |
- Ví dụ ( tfds.as_dataframe ):
beir/sốt
Kích thước tải xuống :
1.15 GiB
Kích thước tập dữ liệu :
3.70 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 5,416,568 |
'query' | 123,142 |
'test' | 1.499 |
'train' | 12,547 |
'validation' | 1.460 |
- Ví dụ ( tfds.as_dataframe ):
beir/climate_fever
Kích thước tải xuống :
1.14 GiB
Kích thước tập dữ liệu :
3.64 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 5,416,593 |
'query' | 1.535 |
'test' | 1.344 |
- Ví dụ ( tfds.as_dataframe ):
beir/scifact
Kích thước tải xuống :
2.69 MiB
Kích thước tập dữ liệu :
10.16 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'passage' | 5,183 |
'query' | 1.109 |
'test' | 283 |
'train' | 565 |
- Ví dụ ( tfds.as_dataframe ):