criteo

  • Descripción :

Conjunto de datos de modelado Criteo Uplift

Este conjunto de datos se publica junto con el artículo: “A Large Scale Benchmark for Uplift Modeling” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, INP de Grenoble)

Este trabajo fue publicado en: AdKDD 2018 Workshop, en conjunto con KDD 2018.

Descripción de datos

Este conjunto de datos se construye reuniendo los datos resultantes de varias pruebas de incremento, un procedimiento de ensayo aleatorio particular en el que se evita que una parte aleatoria de la población sea el objetivo de la publicidad. consta de 25M filas, cada una representando un usuario con 11 características, un indicador de tratamiento y 2 etiquetas (visitas y conversiones).

Los campos

Aquí hay una descripción detallada de los campos (están separados por comas en el archivo):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: valores característicos (denso, flotante)
  • tratamiento: grupo de tratamiento (1 = tratado, 0 = control)
  • conversión: si se produjo una conversión para este usuario (binario, etiqueta)
  • visita: si se produjo una visita para este usuario (binario, etiqueta)
  • exposición: efecto del tratamiento, si el usuario ha estado efectivamente expuesto (binario)

Figuras claves

  • Formato: CSV
  • Tamaño: 459 MB (comprimido)
  • Filas: 25.309.483
  • Tasa promedio de visitas: .04132
  • Tasa de conversión promedio: .00229
  • Relación de tratamiento: .846

Tareas

El conjunto de datos se recopiló y preparó teniendo en cuenta la predicción del levantamiento como tarea principal. Además, podemos prever usos relacionados como, entre otros:

Separar Ejemplos
'train' 13,979,592
  • Estructura de características :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
conversión Tensor bool
exposición Tensor bool
f0 Tensor flotar32
f1 Tensor flotar32
f10 Tensor flotar32
f11 Tensor flotar32
f2 Tensor flotar32
f3 Tensor flotar32
f4 Tensor flotar32
f5 Tensor flotar32
f6 Tensor flotar32
f7 Tensor flotar32
f8 Tensor flotar32
f9 Tensor flotar32
tratamiento Tensor int64
visitar Tensor bool
  • Teclas supervisadas (Ver as_supervised ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Figura ( tfds.show_examples ): no compatible.

  • Ejemplos ( tfds.as_dataframe ):

  • Cita :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}