- 説明:
Yahoo Learning to Rank Challenge データセット (「C14」とも呼ばれる) は、Yahoo がリリースした Learning-to-Rank データセットです。データセットは、特徴ベクトルとして表されるクエリとドキュメントのペアと、対応する関連性判断ラベルで構成されます。
データセットには 2 つのバージョンが含まれています。
-
set1
: 709,877 のクエリとドキュメントのペアが含まれています。 -
set2
: 172,870 のクエリとドキュメントのペアが含まれています。
次のように、データセットのset1
またはset2
バージョンのどちらを使用するかを指定できます。
ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")
yahoo_ltrc
のみが指定されている場合、デフォルトでyahoo_ltrc/set1
オプションが選択されます。
# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
バージョン:
-
1.0.0
: 初期リリース。 -
1.1.0
(デフォルト): クエリとドキュメントの識別子を追加します。
-
ダウンロードサイズ: サイズ
Unknown size
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
https://research.yahoo.com/datasetsで C14 Yahoo Learning To Rank Challenge データセットへのアクセスをリクエストします。 ダウンロードしたdataset.tgz
ファイルを抽出し、ltrc_yahoo.tar.bz2
ファイルをmanual_dir/
に配置します。監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{chapelle2011yahoo,
title={Yahoo! learning to rank challenge overview},
author={Chapelle, Olivier and Chang, Yi},
booktitle={Proceedings of the learning to rank challenge},
pages={1--24},
year={2011},
organization={PMLR}
}
yahoo_ltrc/set1 (デフォルト設定)
データセットのサイズ:
795.39 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 6,983 |
'train' | 19,944 |
'vali' | 2,994 |
- 機能構造:
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 699), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
doc_id | テンソル | (なし、) | int64 | |
float_features | テンソル | (なし、699) | float64 | |
ラベル | テンソル | (なし、) | float64 | |
query_id | 文章 | ストリング |
- 例( tfds.as_dataframe ):
yahoo_ltrc/set2
データセットサイズ:
194.92 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 3,798 |
'train' | 1,266 |
'vali' | 1,266 |
- 機能構造:
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 700), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
doc_id | テンソル | (なし、) | int64 | |
float_features | テンソル | (なし、700) | float64 | |
ラベル | テンソル | (なし、) | float64 | |
query_id | 文章 | ストリング |
- 例( tfds.as_dataframe ):