- الوصف :
مجموعة بيانات نمذجة Criteo Uplift
تم إصدار مجموعة البيانات هذه جنبًا إلى جنب مع الورقة البحثية: "مقياس قياس كبير للنمذجة المرتفعة" يوستاش ديميرت ، أرتيم بيتلي ، كريستوف رينودين ؛ (Criteo AI Lab) ، مسيح رضا أميني (LIG ، Grenoble INP)
تم نشر هذا العمل في: AdKDD 2018 Workshop بالتزامن مع KDD 2018.
بيانات الوصف
يتم إنشاء مجموعة البيانات هذه من خلال تجميع البيانات الناتجة عن العديد من اختبارات الزيادة ، وهي إجراء تجريبي عشوائي معين حيث يتم منع استهداف جزء عشوائي من السكان عن طريق الإعلان. يتكون من 25 مليون صف ، كل صف يمثل مستخدمًا يحتوي على 11 ميزة ، ومؤشر علاج و 2 تصنيف (زيارات وتحويلات).
مجالات
فيما يلي وصف تفصيلي للحقول (مفصولة بفواصل في الملف):
- f0 ، f1 ، f2 ، f3 ، f4 ، f5 ، f6 ، f7 ، f8 ، f9 ، f10 ، f11: قيم الميزة (كثيفة ، عائمة)
- العلاج: مجموعة العلاج (1 = تمت معالجته ، 0 = مجموعة المعالجة)
- التحويل: ما إذا حدث تحويل لهذا المستخدم (ثنائي ، تصنيف)
- زيارة: ما إذا كانت هناك زيارة لهذا المستخدم (ثنائي ، تسمية)
- التعرض: تأثير العلاج ، ما إذا كان المستخدم قد تعرض بشكل فعال (ثنائي)
الشخصيات الرئيسية
- التنسيق: CSV
- الحجم: 459 ميجابايت (مضغوط)
- الصفوف: 25309483
- متوسط معدل الزيارة: .04132
- متوسط معدل التحويل: 00229
- نسبة العلاج: .846
مهام
تم جمع مجموعة البيانات وإعدادها مع وضع التنبؤ بالارتفاع في الاعتبار باعتباره المهمة الرئيسية. بالإضافة إلى ذلك ، يمكننا توقع الاستخدامات ذات الصلة مثل على سبيل المثال لا الحصر:
- معيار الاستدلال السببي
- النمذجة المرتفعة
- التفاعلات بين الميزات والعلاج
- عدم تجانس العلاج
معيار لطرق السببية القائمة على الملاحظة
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
كود المصدر :
tfds.recommendation.criteo.Criteo
إصدارات :
-
1.0.0
: الإصدار الأولي. -
1.0.1
(افتراضي): تحليل ثابتconversion
visit
exposure
للحقول.
-
حجم التحميل :
297.00 MiB
حجم مجموعة البيانات :
3.55 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 13979592 |
- هيكل الميزة :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
تحويلات | موتر | منطقي | ||
مكشوف | موتر | منطقي | ||
f0 | موتر | تعويم 32 | ||
و 1 | موتر | تعويم 32 | ||
f10 | موتر | تعويم 32 | ||
و 11 | موتر | تعويم 32 | ||
f2 | موتر | تعويم 32 | ||
f3 | موتر | تعويم 32 | ||
f4 | موتر | تعويم 32 | ||
f5 | موتر | تعويم 32 | ||
و 6 | موتر | تعويم 32 | ||
f7 | موتر | تعويم 32 | ||
و ٨ | موتر | تعويم 32 | ||
و 9 | موتر | تعويم 32 | ||
علاج او معاملة | موتر | int64 | ||
يزور | موتر | منطقي |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}