yahoo_ltrc

  • Mô tả :

Bộ dữ liệu Yahoo Learning to Rank Challenge (còn được gọi là "C14") là bộ dữ liệu Học cách xếp hạng do Yahoo phát hành. Bộ dữ liệu bao gồm các cặp tài liệu truy vấn được biểu diễn dưới dạng vectơ đặc trưng và nhãn đánh giá mức độ liên quan tương ứng.

Bộ dữ liệu chứa hai phiên bản:

  • set1 : Chứa 709.877 cặp tài liệu truy vấn.
  • set2 : Chứa 172.870 cặp tài liệu truy vấn.

Bạn có thể chỉ định sử dụng phiên bản set1 hay set2 của tập dữ liệu như sau:

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

Nếu chỉ yahoo_ltrc được chỉ định, tùy chọn yahoo_ltrc/set1 được chọn theo mặc định:

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • Trang chủ : https://research.yahoo.com/datasets

  • Mã nguồn : tfds.ranking.yahoo_ltrc.YahooLTRC

  • Phiên bản :

    • 1.0.0 : Bản phát hành đầu tiên.
    • 1.1.0 (mặc định): Thêm số nhận dạng truy vấn và tài liệu.
  • Kích thước tải xuống : Unknown size

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Yêu cầu quyền truy cập tập dữ liệu C14 Yahoo Learning To Rank Challenge trên https://research.yahoo.com/datasets Giải nén tệp dataset.tgz đã tải xuống và đặt tệp ltrc_yahoo.tar.bz2 vào manual_dir/ .

  • Các khóa được giám sát (Xem as_supervised doc ): None

  • Hình ( tfds.show_examples ): Không được hỗ trợ.

  • trích dẫn :

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc/set1 (cấu hình mặc định)

  • Kích thước tập dữ liệu : 795.39 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 6,983
'train' 19,944
'vali' 2.994
  • Cấu trúc tính năng :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Đặc tính Tầng lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
doc_id tenxơ (Không có,) int64
float_features tenxơ (Không có, 699) phao64
nhãn tenxơ (Không có,) phao64
query_id Chữ chuỗi

yahoo_ltrc/set2

  • Kích thước tập dữ liệu : 194.92 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 3,798
'train' 1.266
'vali' 1.266
  • Cấu trúc tính năng :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Đặc tính Tầng lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
doc_id tenxơ (Không có,) int64
float_features tenxơ (Không, 700) phao64
nhãn tenxơ (Không có,) phao64
query_id Chữ chuỗi