TFDS はCroissant 🥐 形式をサポートするようになりました。詳細については、ドキュメントをお読みください。

このページは Cloud Translation API によって翻訳されました。

istella

説明:

Istella データセットは、Istella がリリースした 3 つの大規模な Learning-to-Rank データセットです。各データセットは、特徴ベクトルとして表されるクエリとドキュメントのペアと、対応する関連性判断ラベルで構成されます。

データセットには 3 つのバージョンが含まれています。

main ("Istella LETOR"): 10,454,629 のクエリとドキュメントのペアが含まれています。
s ("Istella-S LETOR"): 3,408,630 のクエリとドキュメントのペアが含まれています。
x ("Istella-X LETOR"): 26,791,447 のクエリとドキュメントのペアが含まれています。

次のように、データセットのmainバージョン、 sバージョン、またはxバージョンのいずれを使用するかを指定できます。

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

istellaのみが指定されている場合、デフォルトでistella/mainオプションが選択されます。

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")

ホームページ: http://quickrank.isti.cnr.it/istella-dataset/
ソースコード: tfds.ranking.istella.Istella
バージョン:
- 1.0.0 : 初期リリース。
- 1.0.1 : float64 をサポートするようにシリアル化を修正しました。
- 1.1.0 : 機能を単一の「float_features」機能にバンドルします。
- 1.2.0 (デフォルト): クエリとドキュメントの識別子を追加します。
自動キャッシュ(ドキュメント): いいえ
機能構造:

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
doc_id	テンソル	（なし、）	int64
float_features	テンソル	(なし、220)	float64
ラベル	テンソル	（なし、）	float64
query_id	文章		ストリング

監視されたキー( as_supervised docを参照): None
図( tfds.show_examples ): サポートされていません。
引用：

@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (デフォルト設定)

ダウンロードサイズ: 1.20 GiB
データセットサイズ: 1.12 GiB
スプリット:

スプリット	例
`'test'`	9,799
`'train'`	23,219

例( tfds.as_dataframe ):

イステラ

ダウンロードサイズ: 450.26 MiB
データセットサイズ: 421.88 MiB
スプリット:

スプリット	例
`'test'`	6,562
`'train'`	19,245
`'vali'`	7,211

例( tfds.as_dataframe ):

イステラ/エックス

ダウンロードサイズ: 4.42 GiB
データセットサイズ: 2.46 GiB
スプリット:

スプリット	例
`'test'`	2,000
`'train'`	6,000
`'vali'`	2,000

例( tfds.as_dataframe ):

、

説明: