- 설명 :
Criteo Uplift 모델링 데이터 세트
이 데이터 세트는 논문 "A Large Scale Benchmark for Uplift Modeling" Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini(LIG, Grenoble INP)
이 작업은 KDD 2018과 함께 AdKDD 2018 워크샵에 게시되었습니다.
데이터 설명
이 데이터 세트는 모집단의 임의 부분이 광고 대상이 되지 않도록 하는 특정 무작위 시험 절차인 여러 증분성 테스트에서 얻은 데이터를 조합하여 구성됩니다. 2,500만 개의 행으로 구성되며 각 행은 11개의 기능, 처리 지표 및 2개의 레이블(방문 및 전환)로 사용자를 나타냅니다.
필드
다음은 필드에 대한 자세한 설명입니다(파일에서 쉼표로 구분됨).
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: 특성 값(dense, float)
- 치료: 치료군(1 = 치료군, 0 = 대조군)
- 전환: 이 사용자에 대해 전환이 발생했는지 여부(바이너리, 라벨)
- 방문: 이 사용자에 대한 방문 발생 여부(바이너리, 레이블)
- 노출: 처리 효과, 사용자가 효과적으로 노출되었는지 여부(바이너리)
중요한 인물들
- 형식: CSV
- 크기: 459MB(압축)
- 행: 25,309,483
- 평균 방문율: .04132
- 평균 전환율: .00229
- 처리 비율: .846
작업
데이터 세트는 향상 예측을 주요 작업으로 염두에 두고 수집 및 준비되었습니다. 또한 다음과 같은 관련 용도를 예측할 수 있습니다.
- 인과 추론을 위한 벤치마크
- 향상 모델링
- 기능과 치료 사이의 상호 작용
- 치료의 이질성
관찰 인과 관계 방법에 대한 벤치마크
홈페이지 : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
버전 :
-
1.0.0
: 최초 릴리스. -
1.0.1
(기본값):conversion
,visit
및exposure
필드의 구문 분석을 수정했습니다.
-
다운로드 크기 :
297.00 MiB
데이터세트 크기 :
3.55 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 13,979,592 |
- 기능 구조 :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
변환 | 텐서 | 부울 | ||
노출 | 텐서 | 부울 | ||
f0 | 텐서 | float32 | ||
f1 | 텐서 | float32 | ||
f10 | 텐서 | float32 | ||
f11 | 텐서 | float32 | ||
f2 | 텐서 | float32 | ||
f3 | 텐서 | float32 | ||
f4 | 텐서 | float32 | ||
f5 | 텐서 | float32 | ||
f6 | 텐서 | float32 | ||
f7 | 텐서 | float32 | ||
f8 | 텐서 | float32 | ||
f9 | 텐서 | float32 | ||
치료 | 텐서 | int64 | ||
방문 | 텐서 | 부울 |
감독된 키 (
as_supervised
문서 참조):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}