Kriter

  • Açıklama :

Criteo Yükseltme Modelleme Veri Kümesi

Bu veri seti şu makaleyle birlikte yayınlandı: “A Large Scale Benchmark for Uplift Modeling” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)

Bu çalışma, KDD 2018 ile bağlantılı olarak AdKDD 2018 Workshop'ta yayınlandı.

Veri tanımlaması

Bu veri seti, popülasyonun rastgele bir bölümünün reklamlarla hedeflenmesinin önlendiği özel bir rastgele deneme prosedürü olan çeşitli artımlılık testlerinden elde edilen verilerin bir araya getirilmesiyle oluşturulur. her biri 11 özellik, bir tedavi göstergesi ve 2 etiket (ziyaretler ve dönüşümler) ile bir kullanıcıyı temsil eden 25 milyon satırdan oluşur.

alanlar

Alanların ayrıntılı açıklaması aşağıdadır (dosyada virgülle ayrılmışlardır):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: özellik değerleri (yoğun, kayan)
  • tedavi: tedavi grubu (1 = tedavi, 0 = kontrol)
  • dönüşüm: bu kullanıcı için bir dönüşüm olup olmadığı (ikili, etiket)
  • ziyaret: bu kullanıcı için bir ziyaret olup olmadığı (ikili, etiket)
  • maruz kalma: tedavi etkisi, kullanıcının etkili bir şekilde maruz kalıp kalmadığı (ikili)

Önemli noktalar

  • Biçim: CSV
  • Boyut: 459MB (sıkıştırılmış)
  • Satırlar: 25.309.483
  • Ortalama Ziyaret Oranı: .04132
  • Ortalama Dönüşüm Oranı: .00229
  • Tedavi Oranı: .846

Görevler

Veri seti, ana görev olarak artış tahmini göz önünde bulundurularak toplandı ve hazırlandı. Ek olarak, aşağıdakiler gibi ancak bunlarla sınırlı olmamak üzere ilgili kullanımları öngörebiliriz:

Bölmek örnekler
'train' 13.979.592
  • Özellik yapısı :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Açıklama
ÖzelliklerDict
dönüştürmek tensör bool
maruziyet tensör bool
f0 tensör şamandıra32
f1 tensör şamandıra32
f10 tensör şamandıra32
f11 tensör şamandıra32
f2 tensör şamandıra32
f3 tensör şamandıra32
f4 tensör şamandıra32
f5 tensör şamandıra32
f6 tensör şamandıra32
f7 tensör şamandıra32
f8 tensör şamandıra32
f9 tensör şamandıra32
tedavi tensör int64
ziyaret tensör bool
  • Denetimli anahtarlar (Bkz as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Şekil ( tfds.show_examples ): Desteklenmiyor.

  • Örnekler ( tfds.as_dataframe ):

  • Alıntı :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
,

  • Açıklama :

Criteo Yükseltme Modelleme Veri Kümesi

Bu veri seti şu makaleyle birlikte yayınlandı: “A Large Scale Benchmark for Uplift Modeling” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)

Bu çalışma, KDD 2018 ile bağlantılı olarak AdKDD 2018 Workshop'ta yayınlandı.

Veri tanımlaması

Bu veri seti, popülasyonun rastgele bir bölümünün reklamlarla hedeflenmesinin önlendiği özel bir rastgele deneme prosedürü olan çeşitli artımlılık testlerinden elde edilen verilerin bir araya getirilmesiyle oluşturulur. her biri 11 özellik, bir tedavi göstergesi ve 2 etiket (ziyaretler ve dönüşümler) ile bir kullanıcıyı temsil eden 25 milyon satırdan oluşur.

alanlar

Alanların ayrıntılı açıklaması aşağıdadır (dosyada virgülle ayrılmışlardır):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: özellik değerleri (yoğun, kayan)
  • tedavi: tedavi grubu (1 = tedavi, 0 = kontrol)
  • dönüşüm: bu kullanıcı için bir dönüşüm olup olmadığı (ikili, etiket)
  • ziyaret: bu kullanıcı için bir ziyaret olup olmadığı (ikili, etiket)
  • maruz kalma: tedavi etkisi, kullanıcının etkili bir şekilde maruz kalıp kalmadığı (ikili)

Önemli noktalar

  • Biçim: CSV
  • Boyut: 459MB (sıkıştırılmış)
  • Satırlar: 25.309.483
  • Ortalama Ziyaret Oranı: .04132
  • Ortalama Dönüşüm Oranı: .00229
  • Tedavi Oranı: .846

Görevler

Veri seti, ana görev olarak artış tahmini göz önünde bulundurularak toplandı ve hazırlandı. Ek olarak, aşağıdakiler gibi ancak bunlarla sınırlı olmamak üzere ilgili kullanımları öngörebiliriz:

Bölmek örnekler
'train' 13.979.592
  • Özellik yapısı :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Açıklama
ÖzelliklerDict
dönüştürmek tensör bool
maruziyet tensör bool
f0 tensör şamandıra32
f1 tensör şamandıra32
f10 tensör şamandıra32
f11 tensör şamandıra32
f2 tensör şamandıra32
f3 tensör şamandıra32
f4 tensör şamandıra32
f5 tensör şamandıra32
f6 tensör şamandıra32
f7 tensör şamandıra32
f8 tensör şamandıra32
f9 tensör şamandıra32
tedavi tensör int64
ziyaret tensör bool
  • Denetimli anahtarlar (Bkz as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Şekil ( tfds.show_examples ): Desteklenmiyor.

  • Örnekler ( tfds.as_dataframe ):

  • Alıntı :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}