- विवरण :
क्राइटो अपलिफ्ट मॉडलिंग डेटासेट
यह डेटासेट पेपर के साथ जारी किया गया है: "अपलिफ्ट मॉडलिंग के लिए एक बड़ा पैमाना बेंचमार्क" Eustache Diemert, Artem Betley, Christophe Renaudin; (क्राइटो एआई लैब), मासिह-रेज़ा अमिनी (एलआईजी, ग्रेनोबल आईएनपी)
यह कार्य इसमें प्रकाशित हुआ था: AdKDD 2018 वर्कशॉप, KDD 2018 के संयोजन में।
डेटा विवरण
इस डेटासेट का निर्माण कई वृद्धिशील परीक्षणों, एक विशेष यादृच्छिक परीक्षण प्रक्रिया के परिणामस्वरूप डेटा को इकट्ठा करके किया जाता है, जहाँ आबादी के एक यादृच्छिक हिस्से को विज्ञापन द्वारा लक्षित होने से रोका जाता है। इसमें 25M पंक्तियाँ होती हैं, जिनमें से प्रत्येक 11 सुविधाओं, एक उपचार संकेतक और 2 लेबल (विज़िट और रूपांतरण) के साथ एक उपयोगकर्ता का प्रतिनिधित्व करती है।
खेत
यहां फ़ील्ड का विस्तृत विवरण दिया गया है (वे फ़ाइल में अल्पविराम से अलग किए गए हैं):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: फीचर वैल्यू (घने, फ्लोट)
- उपचार: उपचार समूह (1 = उपचारित, 0 = नियंत्रण)
- रूपांतरण: क्या इस उपयोगकर्ता के लिए कोई रूपांतरण हुआ है (बाइनरी, लेबल)
- विज़िट: क्या इस उपयोगकर्ता के लिए कोई विज़िट हुई (बाइनरी, लेबल)
- जोखिम: उपचार प्रभाव, क्या उपयोगकर्ता प्रभावी रूप से उजागर हुआ है (बाइनरी)
प्रमुख आंकड़े
- प्रारूप: सीएसवी
- आकार: 459 एमबी (संपीड़ित)
- पंक्तियाँ: 25,309,483
- औसत विज़िट दर: .04132
- औसत रूपांतरण दर: .00229
- उपचार अनुपात: .846
कार्य
डेटासेट एकत्र किया गया था और मुख्य कार्य के रूप में उत्थान की भविष्यवाणी को ध्यान में रखते हुए तैयार किया गया था। इसके अतिरिक्त हम संबंधित उपयोगों को देख सकते हैं जैसे कि लेकिन इन तक सीमित नहीं:
- कारण अनुमान के लिए बेंचमार्क
- उत्थान मॉडलिंग
- सुविधाओं और उपचार के बीच बातचीत
- उपचार की विषमता
अवलोकन संबंधी कारण विधियों के लिए बेंचमार्क
होमपेज : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
स्रोत कोड :
tfds.recommendation.criteo.Criteo
संस्करण :
-
1.0.0
: प्रारंभिक रिलीज। -
1.0.1
(डिफ़ॉल्ट): फ़ील्डconversion
,visit
औरexposure
की निश्चित पार्सिंग।
-
डाउनलोड आकार :
297.00 MiB
डेटासेट का आकार :
3.55 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 13,979,592 |
- फ़ीचर संरचना :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
परिवर्तन | टेन्सर | बूल | ||
अनावरण | टेन्सर | बूल | ||
f0 | टेन्सर | फ्लोट32 | ||
f1 | टेन्सर | फ्लोट32 | ||
f10 | टेन्सर | फ्लोट32 | ||
f11 | टेन्सर | फ्लोट32 | ||
f2 | टेन्सर | फ्लोट32 | ||
f3 | टेन्सर | फ्लोट32 | ||
f4 | टेन्सर | फ्लोट32 | ||
f5 | टेन्सर | फ्लोट32 | ||
f6 | टेन्सर | फ्लोट32 | ||
f7 | टेन्सर | फ्लोट32 | ||
f8 | टेन्सर | फ्लोट32 | ||
f9 | टेन्सर | फ्लोट32 | ||
इलाज | टेन्सर | int64 | ||
मिलने जाना | टेन्सर | बूल |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}