- Descripción :
Conjunto de datos de modelado Criteo Uplift
Este conjunto de datos se publica junto con el artículo: “A Large Scale Benchmark for Uplift Modeling” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, INP de Grenoble)
Este trabajo fue publicado en: AdKDD 2018 Workshop, en conjunto con KDD 2018.
Descripción de datos
Este conjunto de datos se construye reuniendo los datos resultantes de varias pruebas de incremento, un procedimiento de ensayo aleatorio particular en el que se evita que una parte aleatoria de la población sea el objetivo de la publicidad. consta de 25M filas, cada una representando un usuario con 11 características, un indicador de tratamiento y 2 etiquetas (visitas y conversiones).
Los campos
Aquí hay una descripción detallada de los campos (están separados por comas en el archivo):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: valores característicos (denso, flotante)
- tratamiento: grupo de tratamiento (1 = tratado, 0 = control)
- conversión: si se produjo una conversión para este usuario (binario, etiqueta)
- visita: si se produjo una visita para este usuario (binario, etiqueta)
- exposición: efecto del tratamiento, si el usuario ha estado efectivamente expuesto (binario)
Figuras claves
- Formato: CSV
- Tamaño: 459 MB (comprimido)
- Filas: 25.309.483
- Tasa promedio de visitas: .04132
- Tasa de conversión promedio: .00229
- Relación de tratamiento: .846
Tareas
El conjunto de datos se recopiló y preparó teniendo en cuenta la predicción del levantamiento como tarea principal. Además, podemos prever usos relacionados como, entre otros:
- punto de referencia para la inferencia causal
- modelado de elevación
- interacciones entre las características y el tratamiento
- heterogeneidad del tratamiento
punto de referencia para los métodos de causalidad observacional
Documentación adicional : Explore en Papers With Code
Página de inicio: https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Código fuente :
tfds.recommendation.criteo.Criteo
Versiones :
-
1.0.0
: Versión inicial. -
1.0.1
(predeterminado): Análisis fijo deconversion
de campos,visit
yexposure
.
-
Tamaño de descarga :
297.00 MiB
Tamaño del conjunto de datos :
3.55 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 13,979,592 |
- Estructura de características :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
conversión | Tensor | bool | ||
exposición | Tensor | bool | ||
f0 | Tensor | flotar32 | ||
f1 | Tensor | flotar32 | ||
f10 | Tensor | flotar32 | ||
f11 | Tensor | flotar32 | ||
f2 | Tensor | flotar32 | ||
f3 | Tensor | flotar32 | ||
f4 | Tensor | flotar32 | ||
f5 | Tensor | flotar32 | ||
f6 | Tensor | flotar32 | ||
f7 | Tensor | flotar32 | ||
f8 | Tensor | flotar32 | ||
f9 | Tensor | flotar32 | ||
tratamiento | Tensor | int64 | ||
visitar | Tensor | bool |
Teclas supervisadas (Ver
as_supervised
):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}