Criteo

विवरण :

क्राइटो अपलिफ्ट मॉडलिंग डेटासेट

यह डेटासेट पेपर के साथ जारी किया गया है: "अपलिफ्ट मॉडलिंग के लिए एक बड़ा पैमाना बेंचमार्क" Eustache Diemert, Artem Betley, Christophe Renaudin; (क्राइटो एआई लैब), मासिह-रेज़ा अमिनी (एलआईजी, ग्रेनोबल आईएनपी)

यह कार्य इसमें प्रकाशित हुआ था: AdKDD 2018 वर्कशॉप, KDD 2018 के संयोजन में।

डेटा विवरण

इस डेटासेट का निर्माण कई वृद्धिशील परीक्षणों, एक विशेष यादृच्छिक परीक्षण प्रक्रिया के परिणामस्वरूप डेटा को इकट्ठा करके किया जाता है, जहाँ आबादी के एक यादृच्छिक हिस्से को विज्ञापन द्वारा लक्षित होने से रोका जाता है। इसमें 25M पंक्तियाँ होती हैं, जिनमें से प्रत्येक 11 सुविधाओं, एक उपचार संकेतक और 2 लेबल (विज़िट और रूपांतरण) के साथ एक उपयोगकर्ता का प्रतिनिधित्व करती है।

खेत

यहां फ़ील्ड का विस्तृत विवरण दिया गया है (वे फ़ाइल में अल्पविराम से अलग किए गए हैं):

f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: फीचर वैल्यू (घने, फ्लोट)
उपचार: उपचार समूह (1 = उपचारित, 0 = नियंत्रण)
रूपांतरण: क्या इस उपयोगकर्ता के लिए कोई रूपांतरण हुआ है (बाइनरी, लेबल)
विज़िट: क्या इस उपयोगकर्ता के लिए कोई विज़िट हुई (बाइनरी, लेबल)
जोखिम: उपचार प्रभाव, क्या उपयोगकर्ता प्रभावी रूप से उजागर हुआ है (बाइनरी)

प्रमुख आंकड़े

प्रारूप: सीएसवी
आकार: 459 एमबी (संपीड़ित)
पंक्तियाँ: 25,309,483
औसत विज़िट दर: .04132
औसत रूपांतरण दर: .00229
उपचार अनुपात: .846

कार्य

डेटासेट एकत्र किया गया था और मुख्य कार्य के रूप में उत्थान की भविष्यवाणी को ध्यान में रखते हुए तैयार किया गया था। इसके अतिरिक्त हम संबंधित उपयोगों को देख सकते हैं जैसे कि लेकिन इन तक सीमित नहीं:

कारण अनुमान के लिए बेंचमार्क
उत्थान मॉडलिंग
सुविधाओं और उपचार के बीच बातचीत
उपचार की विषमता
अवलोकन संबंधी कारण विधियों के लिए बेंचमार्क
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
स्रोत कोड : tfds.recommendation.criteo.Criteo
संस्करण :
- 1.0.0 : प्रारंभिक रिलीज।
- 1.0.1 (डिफ़ॉल्ट): फ़ील्ड conversion , visit और exposure की निश्चित पार्सिंग।
डाउनलोड आकार : 297.00 MiB
डेटासेट का आकार : 3.55 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'train'`	13,979,592

फ़ीचर संरचना :

FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
परिवर्तन	टेन्सर	बूल
अनावरण	टेन्सर	बूल
f0	टेन्सर	फ्लोट32
f1	टेन्सर	फ्लोट32
f10	टेन्सर	फ्लोट32
f11	टेन्सर	फ्लोट32
f2	टेन्सर	फ्लोट32
f3	टेन्सर	फ्लोट32
f4	टेन्सर	फ्लोट32
f5	टेन्सर	फ्लोट32
f6	टेन्सर	फ्लोट32
f7	टेन्सर	फ्लोट32
f8	टेन्सर	फ्लोट32
f9	टेन्सर	फ्लोट32
इलाज	टेन्सर	int64
मिलने जाना	टेन्सर	बूल

पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):

उद्धरण :

@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}