- Mô tả :
Bộ dữ liệu mô hình nâng cao Criteo
Bộ dữ liệu này được phát hành cùng với bài báo: “Điểm chuẩn quy mô lớn cho mô hình nâng cao” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Phòng thí nghiệm Criteo AI), Massih-Reza Amini (LIG, Grenoble INP)
Công việc này đã được xuất bản trong: Hội thảo AdKDD 2018, kết hợp với KDD 2018.
Mô tả dữ liệu
Tập dữ liệu này được xây dựng bằng cách tập hợp dữ liệu thu được từ một số thử nghiệm gia tăng, một quy trình thử nghiệm ngẫu nhiên cụ thể trong đó một phần dân số ngẫu nhiên không bị quảng cáo nhắm mục tiêu. nó bao gồm 25 triệu hàng, mỗi hàng đại diện cho một người dùng với 11 tính năng, chỉ số điều trị và 2 nhãn (lượt truy cập và chuyển đổi).
Lĩnh vực
Dưới đây là mô tả chi tiết về các trường (chúng được phân tách bằng dấu phẩy trong tệp):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: giá trị đặc trưng (dày đặc, nổi)
- điều trị: nhóm điều trị (1 = được điều trị, 0 = kiểm soát)
- chuyển đổi: chuyển đổi có xảy ra cho người dùng này hay không (nhị phân, nhãn)
- lượt truy cập: liệu lượt truy cập có xảy ra với người dùng này hay không (nhị phân, nhãn)
- phơi nhiễm: hiệu quả điều trị, liệu người dùng có tiếp xúc hiệu quả hay không (nhị phân)
Số liệu quan trọng
- Định dạng: CSV
- Kích thước: 459MB (đã nén)
- Hàng: 25.309.483
- Tỷ lệ truy cập trung bình: 0,04132
- Tỷ lệ chuyển đổi trung bình: 0,00229
- Tỷ lệ điều trị: .846
nhiệm vụ
Tập dữ liệu được thu thập và chuẩn bị với mục đích chính là dự đoán mức tăng. Ngoài ra, chúng tôi có thể thấy trước các cách sử dụng liên quan như nhưng không giới hạn ở:
- điểm chuẩn cho suy luận nhân quả
- mô hình nâng cao
- tương tác giữa các tính năng và điều trị
- sự không đồng nhất của điều trị
điểm chuẩn cho các phương pháp quan sát nhân quả
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Mã nguồn :
tfds.recommendation.criteo.Criteo
Phiên bản :
-
1.0.0
: Bản phát hành đầu tiên. -
1.0.1
(mặc định): Đã sửa lỗi phân tích cú pháp các trườngconversion
,visit
vàexposure
thị .
-
Kích thước tải xuống :
297.00 MiB
Kích thước tập dữ liệu :
3.55 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 13.979.592 |
- Cấu trúc tính năng :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
chuyển đổi | tenxơ | bool | ||
Phơi bày | tenxơ | bool | ||
f0 | tenxơ | phao32 | ||
f1 | tenxơ | phao32 | ||
f10 | tenxơ | phao32 | ||
f11 | tenxơ | phao32 | ||
f2 | tenxơ | phao32 | ||
f3 | tenxơ | phao32 | ||
f4 | tenxơ | phao32 | ||
f5 | tenxơ | phao32 | ||
f6 | tenxơ | phao32 | ||
f7 | tenxơ | phao32 | ||
f8 | tenxơ | phao32 | ||
f9 | tenxơ | phao32 | ||
sự đối đãi | tenxơ | int64 | ||
chuyến thăm | tenxơ | bool |
Các khóa được giám sát (Xem
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
, - Mô tả :
Bộ dữ liệu mô hình nâng cao Criteo
Bộ dữ liệu này được phát hành cùng với bài báo: “Điểm chuẩn quy mô lớn cho mô hình nâng cao” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Phòng thí nghiệm Criteo AI), Massih-Reza Amini (LIG, Grenoble INP)
Công việc này đã được xuất bản trong: Hội thảo AdKDD 2018, kết hợp với KDD 2018.
Mô tả dữ liệu
Tập dữ liệu này được xây dựng bằng cách tập hợp dữ liệu thu được từ một số thử nghiệm gia tăng, một quy trình thử nghiệm ngẫu nhiên cụ thể trong đó một phần dân số ngẫu nhiên không bị quảng cáo nhắm mục tiêu. nó bao gồm 25 triệu hàng, mỗi hàng đại diện cho một người dùng với 11 tính năng, chỉ số điều trị và 2 nhãn (lượt truy cập và chuyển đổi).
Lĩnh vực
Dưới đây là mô tả chi tiết về các trường (chúng được phân tách bằng dấu phẩy trong tệp):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: giá trị đặc trưng (dày đặc, nổi)
- điều trị: nhóm điều trị (1 = được điều trị, 0 = kiểm soát)
- chuyển đổi: chuyển đổi có xảy ra cho người dùng này hay không (nhị phân, nhãn)
- lượt truy cập: liệu lượt truy cập có xảy ra với người dùng này hay không (nhị phân, nhãn)
- phơi nhiễm: hiệu quả điều trị, liệu người dùng có tiếp xúc hiệu quả hay không (nhị phân)
Số liệu quan trọng
- Định dạng: CSV
- Kích thước: 459MB (đã nén)
- Hàng: 25.309.483
- Tỷ lệ truy cập trung bình: 0,04132
- Tỷ lệ chuyển đổi trung bình: 0,00229
- Tỷ lệ điều trị: .846
nhiệm vụ
Tập dữ liệu được thu thập và chuẩn bị với mục đích chính là dự đoán mức tăng. Ngoài ra, chúng tôi có thể thấy trước các cách sử dụng liên quan như nhưng không giới hạn ở:
- điểm chuẩn cho suy luận nhân quả
- mô hình nâng cao
- tương tác giữa các tính năng và điều trị
- sự không đồng nhất của điều trị
điểm chuẩn cho các phương pháp quan sát nhân quả
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Mã nguồn :
tfds.recommendation.criteo.Criteo
Phiên bản :
-
1.0.0
: Bản phát hành đầu tiên. -
1.0.1
(mặc định): Đã sửa lỗi phân tích cú pháp các trườngconversion
,visit
vàexposure
thị .
-
Kích thước tải xuống :
297.00 MiB
Kích thước tập dữ liệu :
3.55 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 13.979.592 |
- Cấu trúc tính năng :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
chuyển đổi | tenxơ | bool | ||
Phơi bày | tenxơ | bool | ||
f0 | tenxơ | phao32 | ||
f1 | tenxơ | phao32 | ||
f10 | tenxơ | phao32 | ||
f11 | tenxơ | phao32 | ||
f2 | tenxơ | phao32 | ||
f3 | tenxơ | phao32 | ||
f4 | tenxơ | phao32 | ||
f5 | tenxơ | phao32 | ||
f6 | tenxơ | phao32 | ||
f7 | tenxơ | phao32 | ||
f8 | tenxơ | phao32 | ||
f9 | tenxơ | phao32 | ||
sự đối đãi | tenxơ | int64 | ||
chuyến thăm | tenxơ | bool |
Các khóa được giám sát (Xem
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}