- 説明:
Criteo アップリフト モデリング データセット
このデータセットは、「A Large Scale Benchmark for Uplift Modeling」という論文とともにリリースされています。Eustache Diemert、Artem Betlei、Christophe Renaudin (Criteo AI Lab)、Massih-Reza Amini (LIG、Grenoble INP)
この作品は、KDD 2018 と連携して、AdKDD 2018 ワークショップで公開されました。
データの説明
このデータセットは、人口のランダムな部分が広告の対象にならないようにする特定の無作為試験手順である、いくつかのインクリメンタリティ テストから得られたデータを集めて構築されます。これは 2,500 万行で構成され、各行は 11 の機能、処理インジケーター、および 2 つのラベル (訪問とコンバージョン) を持つユーザーを表します。
田畑
以下は、フィールドの詳細な説明です (ファイル内ではコンマで区切られています)。
- f0、f1、f2、f3、f4、f5、f6、f7、f8、f9、f10、f11: 特徴値 (dense、float)
- 治療: 治療群 (1 = 治療、0 = コントロール)
- conversion: このユーザーのコンバージョンが発生したかどうか (バイナリ、ラベル)
- 訪問: このユーザーの訪問が発生したかどうか (バイナリ、ラベル)
- 暴露: 治療効果、ユーザーが効果的に暴露されたかどうか (バイナリ)
キー数値
- フォーマット: CSV
- サイズ:459MB(圧縮)
- 行: 25,309,483
- 平均訪問率: .04132
- 平均コンバージョン率: .00229
- 治療比率: .846
タスク
データセットは、主なタスクとして上昇予測を念頭に置いて収集および準備されました。さらに、次のような関連する使用法を予測できますが、これらに限定されません。
- 因果推論のベンチマーク
- 隆起モデリング
- 機能と処理の間の相互作用
- 治療の不均一性
観測的因果関係手法のベンチマーク
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://ailab.criteo.com/criteo-uplift-prediction-dataset/
バージョン:
-
1.0.0
: 初期リリース。 -
1.0.1
(デフォルト): フィールドconversion
、visit
、およびexposure
の解析が修正されました。
-
ダウンロードサイズ:
297.00 MiB
データセットサイズ:
3.55 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 13,979,592 |
- 機能構造:
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
変換 | テンソル | ブール | ||
曝露 | テンソル | ブール | ||
f0 | テンソル | float32 | ||
f1 | テンソル | float32 | ||
f10 | テンソル | float32 | ||
f11 | テンソル | float32 | ||
f2 | テンソル | float32 | ||
f3 | テンソル | float32 | ||
f4 | テンソル | float32 | ||
f5 | テンソル | float32 | ||
f6 | テンソル | float32 | ||
f7 | テンソル | float32 | ||
f8 | テンソル | float32 | ||
f9 | テンソル | float32 | ||
処理 | テンソル | int64 | ||
訪問 | テンソル | ブール |
監視キー(
as_supervised
docを参照):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}