- 説明:
Istella データセットは、Istella がリリースした 3 つの大規模な Learning-to-Rank データセットです。各データセットは、特徴ベクトルとして表されるクエリとドキュメントのペアと、対応する関連性判断ラベルで構成されます。
データセットには 3 つのバージョンが含まれています。
-
main
("Istella LETOR"): 10,454,629 のクエリとドキュメントのペアが含まれています。 -
s
("Istella-S LETOR"): 3,408,630 のクエリとドキュメントのペアが含まれています。 -
x
("Istella-X LETOR"): 26,791,447 のクエリとドキュメントのペアが含まれています。
次のように、データセットのmain
バージョン、 s
バージョン、またはx
バージョンのいずれを使用するかを指定できます。
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
istella
のみが指定されている場合、デフォルトでistella/main
オプションが選択されます。
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
ソース コード:
tfds.ranking.istella.Istella
バージョン:
-
1.0.0
: 初期リリース。 -
1.0.1
: float64 をサポートするようにシリアル化を修正しました。 -
1.1.0
: 機能を単一の「float_features」機能にバンドルします。 -
1.2.0
(デフォルト): クエリとドキュメントの識別子を追加します。
-
自動キャッシュ(ドキュメント): いいえ
機能構造:
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
doc_id | テンソル | (なし、) | int64 | |
float_features | テンソル | (なし、220) | float64 | |
ラベル | テンソル | (なし、) | float64 | |
query_id | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (デフォルト設定)
ダウンロードサイズ:
1.20 GiB
データセットサイズ:
1.12 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 9,799 |
'train' | 23,219 |
- 例( tfds.as_dataframe ):
イステラ
ダウンロードサイズ:
450.26 MiB
データセットサイズ:
421.88 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 6,562 |
'train' | 19,245 |
'vali' | 7,211 |
- 例( tfds.as_dataframe ):
イステラ/エックス
ダウンロードサイズ:
4.42 GiB
データセットサイズ:
2.46 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 例( tfds.as_dataframe ):
- 説明:
Istella データセットは、Istella がリリースした 3 つの大規模な Learning-to-Rank データセットです。各データセットは、特徴ベクトルとして表されるクエリとドキュメントのペアと、対応する関連性判断ラベルで構成されます。
データセットには 3 つのバージョンが含まれています。
-
main
("Istella LETOR"): 10,454,629 のクエリとドキュメントのペアが含まれています。 -
s
("Istella-S LETOR"): 3,408,630 のクエリとドキュメントのペアが含まれています。 -
x
("Istella-X LETOR"): 26,791,447 のクエリとドキュメントのペアが含まれています。
次のように、データセットのmain
バージョン、 s
バージョン、またはx
バージョンのいずれを使用するかを指定できます。
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
istella
のみが指定されている場合、デフォルトでistella/main
オプションが選択されます。
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
ソース コード:
tfds.ranking.istella.Istella
バージョン:
-
1.0.0
: 初期リリース。 -
1.0.1
: float64 をサポートするようにシリアル化を修正しました。 -
1.1.0
: 機能を単一の「float_features」機能にバンドルします。 -
1.2.0
(デフォルト): クエリとドキュメントの識別子を追加します。
-
自動キャッシュ(ドキュメント): いいえ
機能構造:
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
doc_id | テンソル | (なし、) | int64 | |
float_features | テンソル | (なし、220) | float64 | |
ラベル | テンソル | (なし、) | float64 | |
query_id | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (デフォルト設定)
ダウンロードサイズ:
1.20 GiB
データセットサイズ:
1.12 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 9,799 |
'train' | 23,219 |
- 例( tfds.as_dataframe ):
イステラ
ダウンロードサイズ:
450.26 MiB
データセットサイズ:
421.88 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 6,562 |
'train' | 19,245 |
'vali' | 7,211 |
- 例( tfds.as_dataframe ):
イステラ/エックス
ダウンロードサイズ:
4.42 GiB
データセットサイズ:
2.46 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 例( tfds.as_dataframe ):