tiêu chí

  • Mô tả :

Bộ dữ liệu mô hình nâng cao Criteo

Bộ dữ liệu này được phát hành cùng với bài báo: “Điểm chuẩn quy mô lớn cho mô hình nâng cao” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Phòng thí nghiệm Criteo AI), Massih-Reza Amini (LIG, Grenoble INP)

Công việc này đã được xuất bản trong: Hội thảo AdKDD 2018, kết hợp với KDD 2018.

Mô tả dữ liệu

Tập dữ liệu này được xây dựng bằng cách tập hợp dữ liệu thu được từ một số thử nghiệm gia tăng, một quy trình thử nghiệm ngẫu nhiên cụ thể trong đó một phần dân số ngẫu nhiên không bị quảng cáo nhắm mục tiêu. nó bao gồm 25 triệu hàng, mỗi hàng đại diện cho một người dùng với 11 tính năng, chỉ số điều trị và 2 nhãn (lượt truy cập và chuyển đổi).

Lĩnh vực

Dưới đây là mô tả chi tiết về các trường (chúng được phân tách bằng dấu phẩy trong tệp):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: giá trị đặc trưng (dày đặc, nổi)
  • điều trị: nhóm điều trị (1 = được điều trị, 0 = kiểm soát)
  • chuyển đổi: chuyển đổi có xảy ra cho người dùng này hay không (nhị phân, nhãn)
  • lượt truy cập: liệu lượt truy cập có xảy ra với người dùng này hay không (nhị phân, nhãn)
  • phơi nhiễm: hiệu quả điều trị, liệu người dùng có tiếp xúc hiệu quả hay không (nhị phân)

Số liệu quan trọng

  • Định dạng: CSV
  • Kích thước: 459MB (đã nén)
  • Hàng: 25.309.483
  • Tỷ lệ truy cập trung bình: 0,04132
  • Tỷ lệ chuyển đổi trung bình: 0,00229
  • Tỷ lệ điều trị: .846

nhiệm vụ

Tập dữ liệu được thu thập và chuẩn bị với mục đích chính là dự đoán mức tăng. Ngoài ra, chúng tôi có thể thấy trước các cách sử dụng liên quan như nhưng không giới hạn ở:

  • điểm chuẩn cho suy luận nhân quả
  • mô hình nâng cao
  • tương tác giữa các tính năng và điều trị
  • sự không đồng nhất của điều trị
  • điểm chuẩn cho các phương pháp quan sát nhân quả

  • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

  • Trang chủ : https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • Mã nguồn : tfds.recommendation.criteo.Criteo

  • Phiên bản :

    • 1.0.0 : Bản phát hành đầu tiên.
    • 1.0.1 (mặc định): Đã sửa lỗi phân tích cú pháp các trường conversion , visitexposure thị .
  • Kích thước tải xuống : 297.00 MiB

  • Kích thước tập dữ liệu : 3.55 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 13.979.592
  • Cấu trúc tính năng :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
chuyển đổi tenxơ bool
Phơi bày tenxơ bool
f0 tenxơ phao32
f1 tenxơ phao32
f10 tenxơ phao32
f11 tenxơ phao32
f2 tenxơ phao32
f3 tenxơ phao32
f4 tenxơ phao32
f5 tenxơ phao32
f6 tenxơ phao32
f7 tenxơ phao32
f8 tenxơ phao32
f9 tenxơ phao32
sự đối đãi tenxơ int64
chuyến thăm tenxơ bool
  • Các khóa được giám sát (Xem as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Hình ( tfds.show_examples ): Không được hỗ trợ.

  • Ví dụ ( tfds.as_dataframe ):

  • trích dẫn :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
,

  • Mô tả :

Bộ dữ liệu mô hình nâng cao Criteo

Bộ dữ liệu này được phát hành cùng với bài báo: “Điểm chuẩn quy mô lớn cho mô hình nâng cao” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Phòng thí nghiệm Criteo AI), Massih-Reza Amini (LIG, Grenoble INP)

Công việc này đã được xuất bản trong: Hội thảo AdKDD 2018, kết hợp với KDD 2018.

Mô tả dữ liệu

Tập dữ liệu này được xây dựng bằng cách tập hợp dữ liệu thu được từ một số thử nghiệm gia tăng, một quy trình thử nghiệm ngẫu nhiên cụ thể trong đó một phần dân số ngẫu nhiên không bị quảng cáo nhắm mục tiêu. nó bao gồm 25 triệu hàng, mỗi hàng đại diện cho một người dùng với 11 tính năng, chỉ số điều trị và 2 nhãn (lượt truy cập và chuyển đổi).

Lĩnh vực

Dưới đây là mô tả chi tiết về các trường (chúng được phân tách bằng dấu phẩy trong tệp):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: giá trị đặc trưng (dày đặc, nổi)
  • điều trị: nhóm điều trị (1 = được điều trị, 0 = kiểm soát)
  • chuyển đổi: chuyển đổi có xảy ra cho người dùng này hay không (nhị phân, nhãn)
  • lượt truy cập: liệu lượt truy cập có xảy ra với người dùng này hay không (nhị phân, nhãn)
  • phơi nhiễm: hiệu quả điều trị, liệu người dùng có tiếp xúc hiệu quả hay không (nhị phân)

Số liệu quan trọng

  • Định dạng: CSV
  • Kích thước: 459MB (đã nén)
  • Hàng: 25.309.483
  • Tỷ lệ truy cập trung bình: 0,04132
  • Tỷ lệ chuyển đổi trung bình: 0,00229
  • Tỷ lệ điều trị: .846

nhiệm vụ

Tập dữ liệu được thu thập và chuẩn bị với mục đích chính là dự đoán mức tăng. Ngoài ra, chúng tôi có thể thấy trước các cách sử dụng liên quan như nhưng không giới hạn ở:

  • điểm chuẩn cho suy luận nhân quả
  • mô hình nâng cao
  • tương tác giữa các tính năng và điều trị
  • sự không đồng nhất của điều trị
  • điểm chuẩn cho các phương pháp quan sát nhân quả

  • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

  • Trang chủ : https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • Mã nguồn : tfds.recommendation.criteo.Criteo

  • Phiên bản :

    • 1.0.0 : Bản phát hành đầu tiên.
    • 1.0.1 (mặc định): Đã sửa lỗi phân tích cú pháp các trường conversion , visitexposure thị .
  • Kích thước tải xuống : 297.00 MiB

  • Kích thước tập dữ liệu : 3.55 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 13.979.592
  • Cấu trúc tính năng :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
chuyển đổi tenxơ bool
Phơi bày tenxơ bool
f0 tenxơ phao32
f1 tenxơ phao32
f10 tenxơ phao32
f11 tenxơ phao32
f2 tenxơ phao32
f3 tenxơ phao32
f4 tenxơ phao32
f5 tenxơ phao32
f6 tenxơ phao32
f7 tenxơ phao32
f8 tenxơ phao32
f9 tenxơ phao32
sự đối đãi tenxơ int64
chuyến thăm tenxơ bool
  • Các khóa được giám sát (Xem as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Hình ( tfds.show_examples ): Không được hỗ trợ.

  • Ví dụ ( tfds.as_dataframe ):

  • trích dẫn :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}