ক্রিটিও

  • বর্ণনা :

ক্রিটিও আপলিফ্ট মডেলিং ডেটাসেট

এই ডেটাসেটটি কাগজের সাথে প্রকাশ করা হয়েছে: "আপলিফ্ট মডেলিংয়ের জন্য একটি বড় মাপের বেঞ্চমার্ক" Eustache Diemert, Artem Betlei, Christophe Renaudin; (ক্রিটিও এআই ল্যাব), মাসিহ-রেজা আমিনি (এলআইজি, গ্রেনোবল আইএনপি)

এই কাজটি প্রকাশিত হয়েছে: AdKDD 2018 Workshop, KDD 2018 এর সাথে একত্রে।

ডেটা বিবরণ

এই ডেটাসেটটি বিভিন্ন বর্ধনশীলতা পরীক্ষা, একটি নির্দিষ্ট র্যান্ডমাইজড ট্রায়াল পদ্ধতি যেখানে জনসংখ্যার একটি এলোমেলো অংশকে বিজ্ঞাপনের দ্বারা লক্ষ্যবস্তু হতে বাধা দেওয়া হয়, এর ফলে ডেটা একত্রিত করে তৈরি করা হয়। এটি 25M সারি নিয়ে গঠিত, প্রতিটি 11টি বৈশিষ্ট্য সহ একটি ব্যবহারকারীকে প্রতিনিধিত্ব করে, একটি চিকিত্সা নির্দেশক এবং 2টি লেবেল (ভিজিট এবং রূপান্তর)।

ক্ষেত্র

এখানে ক্ষেত্রগুলির একটি বিশদ বিবরণ রয়েছে (সেগুলি ফাইলে কমা দ্বারা পৃথক করা হয়েছে):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: বৈশিষ্ট্যের মান (ঘন, ভাসমান)
  • চিকিত্সা: চিকিত্সা গ্রুপ (1 = চিকিত্সা, 0 = নিয়ন্ত্রণ)
  • রূপান্তর: এই ব্যবহারকারীর জন্য একটি রূপান্তর ঘটেছে কিনা (বাইনারী, লেবেল)
  • ভিজিট: এই ব্যবহারকারীর জন্য একটি ভিজিট হয়েছে কিনা (বাইনারী, লেবেল)
  • এক্সপোজার: চিকিত্সা প্রভাব, ব্যবহারকারী কার্যকরভাবে উন্মুক্ত হয়েছে কিনা (বাইনারী)

সঠিক আকৃতি

  • বিন্যাস: CSV
  • আকার: 459MB (সংকুচিত)
  • সারি: 25,309,483
  • গড় ভিজিট রেট: .04132
  • গড় রূপান্তর হার: .00229
  • চিকিত্সা অনুপাত: .846

কাজ

ডেটাসেট সংগ্রহ করা হয়েছিল এবং মূল কাজ হিসাবে উন্নত পূর্বাভাস মাথায় রেখে প্রস্তুত করা হয়েছিল। উপরন্তু আমরা সম্পর্কিত ব্যবহারের পূর্বাভাস দিতে পারি যেমন কিন্তু সীমাবদ্ধ নয়:

  • কার্যকারণ নির্ণয়ের জন্য বেঞ্চমার্ক
  • উত্থান মডেলিং
  • বৈশিষ্ট্য এবং চিকিত্সার মধ্যে মিথস্ক্রিয়া
  • চিকিত্সার ভিন্নতা
  • পর্যবেক্ষণমূলক কার্যকারণ পদ্ধতির জন্য বেঞ্চমার্ক

  • অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন

  • হোমপেজ : https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • উত্স কোড : tfds.recommendation.criteo.Criteo

  • সংস্করণ :

    • 1.0.0 : প্রাথমিক প্রকাশ।
    • 1.0.1 (ডিফল্ট): ফিল্ড conversion , visit এবং exposure ফিক্সড পার্সিং।
  • ডাউনলোড সাইজ : 297.00 MiB

  • ডেটাসেটের আকার : 3.55 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' ১৩,৯৭৯,৫৯২
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পরিবর্তন টেনসর bool
প্রকাশ টেনসর bool
f0 টেনসর float32
f1 টেনসর float32
f10 টেনসর float32
f11 টেনসর float32
f2 টেনসর float32
f3 টেনসর float32
f4 টেনসর float32
f5 টেনসর float32
f6 টেনসর float32
f7 টেনসর float32
f8 টেনসর float32
f9 টেনসর float32
চিকিত্সা টেনসর int64
পরিদর্শন টেনসর bool
  • তত্ত্বাবধান করা কীগুলি (See as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদাহরণ ( tfds.as_dataframe ):

  • উদ্ধৃতি :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
,

  • বর্ণনা :

ক্রিটিও আপলিফ্ট মডেলিং ডেটাসেট

এই ডেটাসেটটি কাগজের সাথে প্রকাশ করা হয়েছে: "আপলিফ্ট মডেলিংয়ের জন্য একটি বড় মাপের বেঞ্চমার্ক" Eustache Diemert, Artem Betlei, Christophe Renaudin; (ক্রিটিও এআই ল্যাব), মাসিহ-রেজা আমিনি (এলআইজি, গ্রেনোবল আইএনপি)

এই কাজটি প্রকাশিত হয়েছে: AdKDD 2018 Workshop, KDD 2018 এর সাথে একত্রে।

ডেটা বিবরণ

এই ডেটাসেটটি বিভিন্ন বর্ধনশীলতা পরীক্ষা, একটি নির্দিষ্ট র্যান্ডমাইজড ট্রায়াল পদ্ধতি যেখানে জনসংখ্যার একটি এলোমেলো অংশকে বিজ্ঞাপনের দ্বারা লক্ষ্যবস্তু হতে বাধা দেওয়া হয়, এর ফলে ডেটা একত্রিত করে তৈরি করা হয়। এটি 25M সারি নিয়ে গঠিত, প্রতিটি 11টি বৈশিষ্ট্য সহ একটি ব্যবহারকারীকে প্রতিনিধিত্ব করে, একটি চিকিত্সা নির্দেশক এবং 2টি লেবেল (ভিজিট এবং রূপান্তর)।

ক্ষেত্র

এখানে ক্ষেত্রগুলির একটি বিশদ বিবরণ রয়েছে (সেগুলি ফাইলে কমা দ্বারা পৃথক করা হয়েছে):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: বৈশিষ্ট্যের মান (ঘন, ভাসমান)
  • চিকিত্সা: চিকিত্সা গ্রুপ (1 = চিকিত্সা, 0 = নিয়ন্ত্রণ)
  • রূপান্তর: এই ব্যবহারকারীর জন্য একটি রূপান্তর ঘটেছে কিনা (বাইনারী, লেবেল)
  • ভিজিট: এই ব্যবহারকারীর জন্য একটি ভিজিট হয়েছে কিনা (বাইনারী, লেবেল)
  • এক্সপোজার: চিকিত্সা প্রভাব, ব্যবহারকারী কার্যকরভাবে উন্মুক্ত হয়েছে কিনা (বাইনারী)

সঠিক আকৃতি

  • বিন্যাস: CSV
  • আকার: 459MB (সংকুচিত)
  • সারি: 25,309,483
  • গড় ভিজিট রেট: .04132
  • গড় রূপান্তর হার: .00229
  • চিকিত্সা অনুপাত: .846

কাজ

ডেটাসেট সংগ্রহ করা হয়েছিল এবং মূল কাজ হিসাবে উন্নত পূর্বাভাস মাথায় রেখে প্রস্তুত করা হয়েছিল। উপরন্তু আমরা সম্পর্কিত ব্যবহারের পূর্বাভাস দিতে পারি যেমন কিন্তু সীমাবদ্ধ নয়:

  • কার্যকারণ নির্ণয়ের জন্য বেঞ্চমার্ক
  • উত্থান মডেলিং
  • বৈশিষ্ট্য এবং চিকিত্সার মধ্যে মিথস্ক্রিয়া
  • চিকিত্সার ভিন্নতা
  • পর্যবেক্ষণমূলক কার্যকারণ পদ্ধতির জন্য বেঞ্চমার্ক

  • অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন

  • হোমপেজ : https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • উত্স কোড : tfds.recommendation.criteo.Criteo

  • সংস্করণ :

    • 1.0.0 : প্রাথমিক প্রকাশ।
    • 1.0.1 (ডিফল্ট): ফিল্ড conversion , visit এবং exposure ফিক্সড পার্সিং।
  • ডাউনলোড সাইজ : 297.00 MiB

  • ডেটাসেটের আকার : 3.55 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' ১৩,৯৭৯,৫৯২
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পরিবর্তন টেনসর bool
প্রকাশ টেনসর bool
f0 টেনসর float32
f1 টেনসর float32
f10 টেনসর float32
f11 টেনসর float32
f2 টেনসর float32
f3 টেনসর float32
f4 টেনসর float32
f5 টেনসর float32
f6 টেনসর float32
f7 টেনসর float32
f8 টেনসর float32
f9 টেনসর float32
চিকিত্সা টেনসর int64
পরিদর্শন টেনসর bool
  • তত্ত্বাবধান করা কীগুলি (See as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদাহরণ ( tfds.as_dataframe ):

  • উদ্ধৃতি :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}