yahoo_ltrc

  • 説明:

Yahoo Learning to Rank Challenge データセット (「C14」とも呼ばれる) は、Yahoo がリリースした Learning-to-Rank データセットです。データセットは、特徴ベクトルとして表されるクエリとドキュメントのペアと、対応する関連性判断ラベルで構成されます。

データセットには 2 つのバージョンが含まれています。

  • set1 : 709,877 のクエリとドキュメントのペアが含まれています。
  • set2 : 172,870 のクエリとドキュメントのペアが含まれています。

次のように、データセットのset1またはset2バージョンのどちらを使用するかを指定できます。

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

yahoo_ltrcのみが指定されている場合、デフォルトでyahoo_ltrc/set1オプションが選択されます。

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • ホームページ: https://research.yahoo.com/datasets

  • ソースコード: tfds.ranking.yahoo_ltrc.YahooLTRC

  • バージョン:

    • 1.0.0 : 初期リリース。
    • 1.1.0 (デフォルト): クエリとドキュメントの識別子を追加します。
  • ダウンロードサイズ: サイズUnknown size

  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    https://research.yahoo.com/datasetsで C14 Yahoo Learning To Rank Challenge データセットへのアクセスをリクエストします。 ダウンロードしたdataset.tgzファイルを抽出し、 ltrc_yahoo.tar.bz2ファイルをmanual_dir/に配置します。

  • 監視されたキー( as_supervised docを参照): None

  • ( tfds.show_examples ): サポートされていません。

  • 引用

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc/set1 (デフォルト設定)

  • データセットのサイズ: 795.39 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 6,983
'train' 19,944
'vali' 2,994
  • 機能構造:
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
doc_idテンソル(なし、) int64
float_featuresテンソル(なし、699) float64
ラベルテンソル(なし、) float64
query_id文章ストリング

yahoo_ltrc/set2

  • データセットサイズ: 194.92 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 3,798
'train' 1,266
'vali' 1,266
  • 機能構造:
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
doc_idテンソル(なし、) int64
float_featuresテンソル(なし、700) float64
ラベルテンソル(なし、) float64
query_id文章ストリング