- Mô tả :
Bộ dữ liệu Yahoo Learning to Rank Challenge (còn được gọi là "C14") là bộ dữ liệu Học cách xếp hạng do Yahoo phát hành. Bộ dữ liệu bao gồm các cặp tài liệu truy vấn được biểu diễn dưới dạng vectơ đặc trưng và nhãn đánh giá mức độ liên quan tương ứng.
Bộ dữ liệu chứa hai phiên bản:
-
set1
: Chứa 709.877 cặp tài liệu truy vấn. -
set2
: Chứa 172.870 cặp tài liệu truy vấn.
Bạn có thể chỉ định sử dụng phiên bản set1
hay set2
của tập dữ liệu như sau:
ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")
Nếu chỉ yahoo_ltrc
được chỉ định, tùy chọn yahoo_ltrc/set1
được chọn theo mặc định:
# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
Trang chủ : https://research.yahoo.com/datasets
Mã nguồn :
tfds.ranking.yahoo_ltrc.YahooLTRC
Phiên bản :
-
1.0.0
: Bản phát hành đầu tiên. -
1.1.0
(mặc định): Thêm số nhận dạng truy vấn và tài liệu.
-
Kích thước tải xuống :
Unknown size
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Yêu cầu quyền truy cập tập dữ liệu C14 Yahoo Learning To Rank Challenge trên https://research.yahoo.com/datasets Giải nén tệpdataset.tgz
đã tải xuống và đặt tệpltrc_yahoo.tar.bz2
vàomanual_dir/
.Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{chapelle2011yahoo,
title={Yahoo! learning to rank challenge overview},
author={Chapelle, Olivier and Chang, Yi},
booktitle={Proceedings of the learning to rank challenge},
pages={1--24},
year={2011},
organization={PMLR}
}
yahoo_ltrc/set1 (cấu hình mặc định)
Kích thước tập dữ liệu :
795.39 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 6,983 |
'train' | 19,944 |
'vali' | 2.994 |
- Cấu trúc tính năng :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 699), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Đặc tính | Tầng lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
doc_id | tenxơ | (Không có,) | int64 | |
float_features | tenxơ | (Không có, 699) | phao64 | |
nhãn | tenxơ | (Không có,) | phao64 | |
query_id | Chữ | chuỗi |
- Ví dụ ( tfds.as_dataframe ):
yahoo_ltrc/set2
Kích thước tập dữ liệu :
194.92 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 3,798 |
'train' | 1.266 |
'vali' | 1.266 |
- Cấu trúc tính năng :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 700), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Đặc tính | Tầng lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
doc_id | tenxơ | (Không có,) | int64 | |
float_features | tenxơ | (Không, 700) | phao64 | |
nhãn | tenxơ | (Không có,) | phao64 | |
query_id | Chữ | chuỗi |
- Ví dụ ( tfds.as_dataframe ):