- বর্ণনা :
ক্রিটিও আপলিফ্ট মডেলিং ডেটাসেট
এই ডেটাসেটটি কাগজের সাথে প্রকাশ করা হয়েছে: "আপলিফ্ট মডেলিংয়ের জন্য একটি বড় মাপের বেঞ্চমার্ক" Eustache Diemert, Artem Betlei, Christophe Renaudin; (ক্রিটিও এআই ল্যাব), মাসিহ-রেজা আমিনি (এলআইজি, গ্রেনোবল আইএনপি)
এই কাজটি প্রকাশিত হয়েছে: AdKDD 2018 Workshop, KDD 2018 এর সাথে একত্রে।
ডেটা বিবরণ
এই ডেটাসেটটি বিভিন্ন বর্ধনশীলতা পরীক্ষা, একটি নির্দিষ্ট র্যান্ডমাইজড ট্রায়াল পদ্ধতি যেখানে জনসংখ্যার একটি এলোমেলো অংশকে বিজ্ঞাপনের দ্বারা লক্ষ্যবস্তু হতে বাধা দেওয়া হয়, এর ফলে ডেটা একত্রিত করে তৈরি করা হয়। এটি 25M সারি নিয়ে গঠিত, প্রতিটি 11টি বৈশিষ্ট্য সহ একটি ব্যবহারকারীকে প্রতিনিধিত্ব করে, একটি চিকিত্সা নির্দেশক এবং 2টি লেবেল (ভিজিট এবং রূপান্তর)।
ক্ষেত্র
এখানে ক্ষেত্রগুলির একটি বিশদ বিবরণ রয়েছে (সেগুলি ফাইলে কমা দ্বারা পৃথক করা হয়েছে):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: বৈশিষ্ট্যের মান (ঘন, ভাসমান)
- চিকিত্সা: চিকিত্সা গ্রুপ (1 = চিকিত্সা, 0 = নিয়ন্ত্রণ)
- রূপান্তর: এই ব্যবহারকারীর জন্য একটি রূপান্তর ঘটেছে কিনা (বাইনারী, লেবেল)
- ভিজিট: এই ব্যবহারকারীর জন্য একটি ভিজিট হয়েছে কিনা (বাইনারী, লেবেল)
- এক্সপোজার: চিকিত্সা প্রভাব, ব্যবহারকারী কার্যকরভাবে উন্মুক্ত হয়েছে কিনা (বাইনারী)
সঠিক আকৃতি
- বিন্যাস: CSV
- আকার: 459MB (সংকুচিত)
- সারি: 25,309,483
- গড় ভিজিট রেট: .04132
- গড় রূপান্তর হার: .00229
- চিকিত্সা অনুপাত: .846
কাজ
ডেটাসেট সংগ্রহ করা হয়েছিল এবং মূল কাজ হিসাবে উন্নত পূর্বাভাস মাথায় রেখে প্রস্তুত করা হয়েছিল। উপরন্তু আমরা সম্পর্কিত ব্যবহারের পূর্বাভাস দিতে পারি যেমন কিন্তু সীমাবদ্ধ নয়:
- কার্যকারণ নির্ণয়ের জন্য বেঞ্চমার্ক
- উত্থান মডেলিং
- বৈশিষ্ট্য এবং চিকিত্সার মধ্যে মিথস্ক্রিয়া
- চিকিত্সার ভিন্নতা
পর্যবেক্ষণমূলক কার্যকারণ পদ্ধতির জন্য বেঞ্চমার্ক
হোমপেজ : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
উত্স কোড :
tfds.recommendation.criteo.Criteo
সংস্করণ :
-
1.0.0
: প্রাথমিক প্রকাশ। -
1.0.1
(ডিফল্ট): ফিল্ডconversion
,visit
এবংexposure
ফিক্সড পার্সিং।
-
ডাউনলোড সাইজ :
297.00 MiB
ডেটাসেটের আকার :
3.55 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | ১৩,৯৭৯,৫৯২ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
পরিবর্তন | টেনসর | bool | ||
প্রকাশ | টেনসর | bool | ||
f0 | টেনসর | float32 | ||
f1 | টেনসর | float32 | ||
f10 | টেনসর | float32 | ||
f11 | টেনসর | float32 | ||
f2 | টেনসর | float32 | ||
f3 | টেনসর | float32 | ||
f4 | টেনসর | float32 | ||
f5 | টেনসর | float32 | ||
f6 | টেনসর | float32 | ||
f7 | টেনসর | float32 | ||
f8 | টেনসর | float32 | ||
f9 | টেনসর | float32 | ||
চিকিত্সা | টেনসর | int64 | ||
পরিদর্শন | টেনসর | bool |
তত্ত্বাবধান করা কীগুলি (See
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
, - বর্ণনা :
ক্রিটিও আপলিফ্ট মডেলিং ডেটাসেট
এই ডেটাসেটটি কাগজের সাথে প্রকাশ করা হয়েছে: "আপলিফ্ট মডেলিংয়ের জন্য একটি বড় মাপের বেঞ্চমার্ক" Eustache Diemert, Artem Betlei, Christophe Renaudin; (ক্রিটিও এআই ল্যাব), মাসিহ-রেজা আমিনি (এলআইজি, গ্রেনোবল আইএনপি)
এই কাজটি প্রকাশিত হয়েছে: AdKDD 2018 Workshop, KDD 2018 এর সাথে একত্রে।
ডেটা বিবরণ
এই ডেটাসেটটি বিভিন্ন বর্ধনশীলতা পরীক্ষা, একটি নির্দিষ্ট র্যান্ডমাইজড ট্রায়াল পদ্ধতি যেখানে জনসংখ্যার একটি এলোমেলো অংশকে বিজ্ঞাপনের দ্বারা লক্ষ্যবস্তু হতে বাধা দেওয়া হয়, এর ফলে ডেটা একত্রিত করে তৈরি করা হয়। এটি 25M সারি নিয়ে গঠিত, প্রতিটি 11টি বৈশিষ্ট্য সহ একটি ব্যবহারকারীকে প্রতিনিধিত্ব করে, একটি চিকিত্সা নির্দেশক এবং 2টি লেবেল (ভিজিট এবং রূপান্তর)।
ক্ষেত্র
এখানে ক্ষেত্রগুলির একটি বিশদ বিবরণ রয়েছে (সেগুলি ফাইলে কমা দ্বারা পৃথক করা হয়েছে):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: বৈশিষ্ট্যের মান (ঘন, ভাসমান)
- চিকিত্সা: চিকিত্সা গ্রুপ (1 = চিকিত্সা, 0 = নিয়ন্ত্রণ)
- রূপান্তর: এই ব্যবহারকারীর জন্য একটি রূপান্তর ঘটেছে কিনা (বাইনারী, লেবেল)
- ভিজিট: এই ব্যবহারকারীর জন্য একটি ভিজিট হয়েছে কিনা (বাইনারী, লেবেল)
- এক্সপোজার: চিকিত্সা প্রভাব, ব্যবহারকারী কার্যকরভাবে উন্মুক্ত হয়েছে কিনা (বাইনারী)
সঠিক আকৃতি
- বিন্যাস: CSV
- আকার: 459MB (সংকুচিত)
- সারি: 25,309,483
- গড় ভিজিট রেট: .04132
- গড় রূপান্তর হার: .00229
- চিকিত্সা অনুপাত: .846
কাজ
ডেটাসেট সংগ্রহ করা হয়েছিল এবং মূল কাজ হিসাবে উন্নত পূর্বাভাস মাথায় রেখে প্রস্তুত করা হয়েছিল। উপরন্তু আমরা সম্পর্কিত ব্যবহারের পূর্বাভাস দিতে পারি যেমন কিন্তু সীমাবদ্ধ নয়:
- কার্যকারণ নির্ণয়ের জন্য বেঞ্চমার্ক
- উত্থান মডেলিং
- বৈশিষ্ট্য এবং চিকিত্সার মধ্যে মিথস্ক্রিয়া
- চিকিত্সার ভিন্নতা
পর্যবেক্ষণমূলক কার্যকারণ পদ্ধতির জন্য বেঞ্চমার্ক
হোমপেজ : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
উত্স কোড :
tfds.recommendation.criteo.Criteo
সংস্করণ :
-
1.0.0
: প্রাথমিক প্রকাশ। -
1.0.1
(ডিফল্ট): ফিল্ডconversion
,visit
এবংexposure
ফিক্সড পার্সিং।
-
ডাউনলোড সাইজ :
297.00 MiB
ডেটাসেটের আকার :
3.55 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | ১৩,৯৭৯,৫৯২ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
পরিবর্তন | টেনসর | bool | ||
প্রকাশ | টেনসর | bool | ||
f0 | টেনসর | float32 | ||
f1 | টেনসর | float32 | ||
f10 | টেনসর | float32 | ||
f11 | টেনসর | float32 | ||
f2 | টেনসর | float32 | ||
f3 | টেনসর | float32 | ||
f4 | টেনসর | float32 | ||
f5 | টেনসর | float32 | ||
f6 | টেনসর | float32 | ||
f7 | টেনসর | float32 | ||
f8 | টেনসর | float32 | ||
f9 | টেনসর | float32 | ||
চিকিত্সা | টেনসর | int64 | ||
পরিদর্শন | টেনসর | bool |
তত্ত্বাবধান করা কীগুলি (See
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}