- Açıklama :
Criteo Yükseltme Modelleme Veri Kümesi
Bu veri seti şu makaleyle birlikte yayınlandı: “A Large Scale Benchmark for Uplift Modeling” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)
Bu çalışma, KDD 2018 ile bağlantılı olarak AdKDD 2018 Workshop'ta yayınlandı.
Veri tanımlaması
Bu veri seti, popülasyonun rastgele bir bölümünün reklamlarla hedeflenmesinin önlendiği özel bir rastgele deneme prosedürü olan çeşitli artımlılık testlerinden elde edilen verilerin bir araya getirilmesiyle oluşturulur. her biri 11 özellik, bir tedavi göstergesi ve 2 etiket (ziyaretler ve dönüşümler) ile bir kullanıcıyı temsil eden 25 milyon satırdan oluşur.
alanlar
Alanların ayrıntılı açıklaması aşağıdadır (dosyada virgülle ayrılmışlardır):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: özellik değerleri (yoğun, kayan)
- tedavi: tedavi grubu (1 = tedavi, 0 = kontrol)
- dönüşüm: bu kullanıcı için bir dönüşüm olup olmadığı (ikili, etiket)
- ziyaret: bu kullanıcı için bir ziyaret olup olmadığı (ikili, etiket)
- maruz kalma: tedavi etkisi, kullanıcının etkili bir şekilde maruz kalıp kalmadığı (ikili)
Önemli noktalar
- Biçim: CSV
- Boyut: 459MB (sıkıştırılmış)
- Satırlar: 25.309.483
- Ortalama Ziyaret Oranı: .04132
- Ortalama Dönüşüm Oranı: .00229
- Tedavi Oranı: .846
Görevler
Veri seti, ana görev olarak artış tahmini göz önünde bulundurularak toplandı ve hazırlandı. Ek olarak, aşağıdakiler gibi ancak bunlarla sınırlı olmamak üzere ilgili kullanımları öngörebiliriz:
- nedensel çıkarım için kriter
- yükseltme modelleme
- özellikler ve tedavi arasındaki etkileşimler
- tedavinin heterojenliği
gözlemsel nedensellik yöntemleri için kıyaslama
Ana sayfa : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Kaynak kodu :
tfds.recommendation.criteo.Criteo
sürümler :
-
1.0.0
: İlk sürüm. -
1.0.1
(varsayılan):conversion
,visit
veexposure
alanlarının ayrıştırılması düzeltildi.
-
İndirme boyutu :
297.00 MiB
Veri kümesi boyutu :
3.55 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 13.979.592 |
- Özellik yapısı :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
dönüştürmek | tensör | bool | ||
maruziyet | tensör | bool | ||
f0 | tensör | şamandıra32 | ||
f1 | tensör | şamandıra32 | ||
f10 | tensör | şamandıra32 | ||
f11 | tensör | şamandıra32 | ||
f2 | tensör | şamandıra32 | ||
f3 | tensör | şamandıra32 | ||
f4 | tensör | şamandıra32 | ||
f5 | tensör | şamandıra32 | ||
f6 | tensör | şamandıra32 | ||
f7 | tensör | şamandıra32 | ||
f8 | tensör | şamandıra32 | ||
f9 | tensör | şamandıra32 | ||
tedavi | tensör | int64 | ||
ziyaret | tensör | bool |
Denetimli anahtarlar (Bkz
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
, - Açıklama :
Criteo Yükseltme Modelleme Veri Kümesi
Bu veri seti şu makaleyle birlikte yayınlandı: “A Large Scale Benchmark for Uplift Modeling” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)
Bu çalışma, KDD 2018 ile bağlantılı olarak AdKDD 2018 Workshop'ta yayınlandı.
Veri tanımlaması
Bu veri seti, popülasyonun rastgele bir bölümünün reklamlarla hedeflenmesinin önlendiği özel bir rastgele deneme prosedürü olan çeşitli artımlılık testlerinden elde edilen verilerin bir araya getirilmesiyle oluşturulur. her biri 11 özellik, bir tedavi göstergesi ve 2 etiket (ziyaretler ve dönüşümler) ile bir kullanıcıyı temsil eden 25 milyon satırdan oluşur.
alanlar
Alanların ayrıntılı açıklaması aşağıdadır (dosyada virgülle ayrılmışlardır):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: özellik değerleri (yoğun, kayan)
- tedavi: tedavi grubu (1 = tedavi, 0 = kontrol)
- dönüşüm: bu kullanıcı için bir dönüşüm olup olmadığı (ikili, etiket)
- ziyaret: bu kullanıcı için bir ziyaret olup olmadığı (ikili, etiket)
- maruz kalma: tedavi etkisi, kullanıcının etkili bir şekilde maruz kalıp kalmadığı (ikili)
Önemli noktalar
- Biçim: CSV
- Boyut: 459MB (sıkıştırılmış)
- Satırlar: 25.309.483
- Ortalama Ziyaret Oranı: .04132
- Ortalama Dönüşüm Oranı: .00229
- Tedavi Oranı: .846
Görevler
Veri seti, ana görev olarak artış tahmini göz önünde bulundurularak toplandı ve hazırlandı. Ek olarak, aşağıdakiler gibi ancak bunlarla sınırlı olmamak üzere ilgili kullanımları öngörebiliriz:
- nedensel çıkarım için kriter
- yükseltme modelleme
- özellikler ve tedavi arasındaki etkileşimler
- tedavinin heterojenliği
gözlemsel nedensellik yöntemleri için kıyaslama
Ana sayfa : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Kaynak kodu :
tfds.recommendation.criteo.Criteo
sürümler :
-
1.0.0
: İlk sürüm. -
1.0.1
(varsayılan):conversion
,visit
veexposure
alanlarının ayrıştırılması düzeltildi.
-
İndirme boyutu :
297.00 MiB
Veri kümesi boyutu :
3.55 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 13.979.592 |
- Özellik yapısı :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
dönüştürmek | tensör | bool | ||
maruziyet | tensör | bool | ||
f0 | tensör | şamandıra32 | ||
f1 | tensör | şamandıra32 | ||
f10 | tensör | şamandıra32 | ||
f11 | tensör | şamandıra32 | ||
f2 | tensör | şamandıra32 | ||
f3 | tensör | şamandıra32 | ||
f4 | tensör | şamandıra32 | ||
f5 | tensör | şamandıra32 | ||
f6 | tensör | şamandıra32 | ||
f7 | tensör | şamandıra32 | ||
f8 | tensör | şamandıra32 | ||
f9 | tensör | şamandıra32 | ||
tedavi | tensör | int64 | ||
ziyaret | tensör | bool |
Denetimli anahtarlar (Bkz
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}