Criteo

  • विवरण :

क्राइटो अपलिफ्ट मॉडलिंग डेटासेट

यह डेटासेट पेपर के साथ जारी किया गया है: "अपलिफ्ट मॉडलिंग के लिए एक बड़ा पैमाना बेंचमार्क" Eustache Diemert, Artem Betley, Christophe Renaudin; (क्राइटो एआई लैब), मासिह-रेज़ा अमिनी (एलआईजी, ग्रेनोबल आईएनपी)

यह कार्य इसमें प्रकाशित हुआ था: AdKDD 2018 वर्कशॉप, KDD 2018 के संयोजन में।

डेटा विवरण

इस डेटासेट का निर्माण कई वृद्धिशील परीक्षणों, एक विशेष यादृच्छिक परीक्षण प्रक्रिया के परिणामस्वरूप डेटा को इकट्ठा करके किया जाता है, जहाँ आबादी के एक यादृच्छिक हिस्से को विज्ञापन द्वारा लक्षित होने से रोका जाता है। इसमें 25M पंक्तियाँ होती हैं, जिनमें से प्रत्येक 11 सुविधाओं, एक उपचार संकेतक और 2 लेबल (विज़िट और रूपांतरण) के साथ एक उपयोगकर्ता का प्रतिनिधित्व करती है।

खेत

यहां फ़ील्ड का विस्तृत विवरण दिया गया है (वे फ़ाइल में अल्पविराम से अलग किए गए हैं):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: फीचर वैल्यू (घने, फ्लोट)
  • उपचार: उपचार समूह (1 = उपचारित, 0 = नियंत्रण)
  • रूपांतरण: क्या इस उपयोगकर्ता के लिए कोई रूपांतरण हुआ है (बाइनरी, लेबल)
  • विज़िट: क्या इस उपयोगकर्ता के लिए कोई विज़िट हुई (बाइनरी, लेबल)
  • जोखिम: उपचार प्रभाव, क्या उपयोगकर्ता प्रभावी रूप से उजागर हुआ है (बाइनरी)

प्रमुख आंकड़े

  • प्रारूप: सीएसवी
  • आकार: 459 एमबी (संपीड़ित)
  • पंक्तियाँ: 25,309,483
  • औसत विज़िट दर: .04132
  • औसत रूपांतरण दर: .00229
  • उपचार अनुपात: .846

कार्य

डेटासेट एकत्र किया गया था और मुख्य कार्य के रूप में उत्थान की भविष्यवाणी को ध्यान में रखते हुए तैयार किया गया था। इसके अतिरिक्त हम संबंधित उपयोगों को देख सकते हैं जैसे कि लेकिन इन तक सीमित नहीं:

विभाजित करना उदाहरण
'train' 13,979,592
  • फ़ीचर संरचना :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
परिवर्तन टेन्सर बूल
अनावरण टेन्सर बूल
f0 टेन्सर फ्लोट32
f1 टेन्सर फ्लोट32
f10 टेन्सर फ्लोट32
f11 टेन्सर फ्लोट32
f2 टेन्सर फ्लोट32
f3 टेन्सर फ्लोट32
f4 टेन्सर फ्लोट32
f5 टेन्सर फ्लोट32
f6 टेन्सर फ्लोट32
f7 टेन्सर फ्लोट32
f8 टेन्सर फ्लोट32
f9 टेन्सर फ्लोट32
इलाज टेन्सर int64
मिलने जाना टेन्सर बूल
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उदाहरण ( tfds.as_dataframe ):

  • उद्धरण :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}