- الوصف :
تحتوي مجموعة البيانات هذه على مجموعة من تقييمات الأفلام من موقع MovieLens ، وهي خدمة توصية بالأفلام. تم جمع مجموعة البيانات هذه وصيانتها بواسطة GroupLens ، وهي مجموعة بحثية في جامعة مينيسوتا. هناك 5 إصدارات مضمنة: "25 م" ، "الأحدث-صغير" ، "100 ك" ، "1 م" ، "20 م". في جميع مجموعات البيانات ، يتم ضم بيانات الأفلام وبيانات التصنيفات في "movieId". تحتوي مجموعة البيانات التي يبلغ طولها 25 مليونًا وأحدث مجموعة بيانات صغيرة ومجموعة بيانات 20 مليونًا على بيانات الأفلام وبيانات التصنيف فقط. تحتوي مجموعة البيانات التي يبلغ حجمها 1 مليون ومجموعة البيانات 100 ألف على بيانات ديموغرافية بالإضافة إلى بيانات الأفلام والتصنيف.
- "25m": هذا هو أحدث إصدار ثابت من مجموعة بيانات MovieLens. فمن المستحسن لأغراض البحث.
- "الأحدث - صغير": هذه مجموعة فرعية صغيرة من أحدث إصدار من مجموعة بيانات MovieLens. يتم تغييره وتحديثه بمرور الوقت بواسطة GroupLens.
- "100k": هذا هو أقدم إصدار من مجموعات بيانات MovieLens. إنها مجموعة بيانات صغيرة بها بيانات ديموغرافية.
- "1m": هذا هو أكبر مجموعة بيانات MovieLens التي تحتوي على بيانات ديموغرافية.
- "20m": هذه واحدة من أكثر مجموعات بيانات MovieLens استخدامًا في الأوراق الأكاديمية جنبًا إلى جنب مع مجموعة بيانات 1m.
لكل إصدار ، يمكن للمستخدمين عرض إما بيانات الأفلام فقط عن طريق إضافة لاحقة "-أفلام" (على سبيل المثال "25 مليون فيلم") أو بيانات التقييمات المرتبطة ببيانات الأفلام (وبيانات المستخدمين في مجموعات البيانات 1m و 100k) عن طريق إضافة لاحقة "-ratings" (على سبيل المثال "تصنيفات 25m").
يتم تضمين الميزات أدناه في كافة الإصدارات مع لاحقة "التقييمات".
- "movie_id": معرّف فريد للفيلم المصنف
- "movie_title": عنوان الفيلم المصنف مع وجود سنة الإصدار بين قوسين
- "movie_genres": سلسلة من الأنواع التي ينتمي إليها الفيلم المصنف
- "user_id": معرّف فريد للمستخدم الذي أجرى التقييم
- "user_rating": درجة التقييم على مقياس من فئة الخمس نجوم
- "الطابع الزمني": الطابع الزمني للتقييمات ، يتم تمثيله بالثواني منذ منتصف الليل بالتوقيت العالمي المنسق (UTC) في 1 يناير 1970
يتضمن الإصداران "100 ألف تقييم" و "مليون تقييم" بالإضافة إلى الميزات الديموغرافية التالية.
- "user_gender": جنس المستخدم الذي قام بالتقييم ؛ القيمة الحقيقية تقابل الذكر
- "bucketized_user_age": القيم العمرية المجمعة للمستخدم الذي أجرى التقييم ، والقيم والنطاقات المقابلة هي:
- 1: "أقل من 18"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
- "user_occupation_label": مهنة المستخدم الذي قام بالتصنيف ممثلة بتسمية مشفرة بعدد صحيح ؛ تمت معالجة الملصقات مسبقًا لتكون متسقة عبر إصدارات مختلفة
- "user_occupation_text": مهنة المستخدم الذي قام بالتصنيف في السلسلة الأصلية ؛ يمكن أن تحتوي الإصدارات المختلفة على مجموعة مختلفة من تسميات النص الخام
- "user_zip_code": الرمز البريدي للمستخدم الذي أجرى التقييم
بالإضافة إلى ذلك ، ستحتوي مجموعة البيانات "100 ألف تقييم" أيضًا على ميزة "raw_user_age" وهي الأعمار الدقيقة للمستخدمين الذين قاموا بالتقييم
تحتوي مجموعات البيانات التي تحتوي على لاحقة "-أفلام" على ميزات "movie_id" و "movie_title" و "movie_genres" فقط.
الصفحة الرئيسية https://grouplens.org/datasets/movielens/
كود المصدر :
tfds.structured.MovieLens
إصدارات :
-
0.1.1
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movie_lens / تصنيفات 25m (التكوين الافتراضي)
- وصف التكوين : تحتوي مجموعة البيانات هذه على 25000،095 تصنيفًا عبر 62،423 فيلمًا ، تم إنشاؤها بواسطة 162،541 مستخدمًا بين 09 يناير 1995 و 21 نوفمبر ،
- مجموعة البيانات هذه هي أحدث إصدار ثابت من مجموعة بيانات MovieLens ، التي تم إنشاؤها في 21 نوفمبر 2019.
قام كل مستخدم بتقييم 20 فيلمًا على الأقل. التصنيفات بزيادات نصف نجمة. لا تتضمن مجموعة البيانات هذه بيانات ديموغرافية.
حجم التحميل :
249.84 MiB
حجم مجموعة البيانات :
3.89 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 25000،095 |
- هيكل الميزة :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
أنواع الأفلام | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
معرّف_الفيلم | موتر | سلسلة | ||
عنوان الفيلم | موتر | سلسلة | ||
الطابع الزمني | موتر | int64 | ||
معرف المستخدم | موتر | سلسلة | ||
تقييم المستخدم | موتر | تعويم 32 |
- أمثلة ( tfds.as_dataframe ):
movie_lens / أفلام 25 م
وصف التكوين : تحتوي مجموعة البيانات هذه على بيانات 62،423 فيلمًا تم تصنيفها في مجموعة بيانات 25 مليونًا.
حجم التحميل :
249.84 MiB
حجم مجموعة البيانات :
5.71 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 62،423 |
- هيكل الميزة :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
أنواع الأفلام | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
معرّف_الفيلم | موتر | سلسلة | ||
عنوان الفيلم | موتر | سلسلة |
- أمثلة ( tfds.as_dataframe ):
movie_lens / أحدث التقييمات الصغيرة
- وصف التكوين : تحتوي مجموعة البيانات هذه على 100836 تقييمًا عبر 9742 فيلمًا ، تم إنشاؤها بواسطة 610 مستخدمًا بين 29 مارس 1996 و 24 سبتمبر 2018. تم إنشاء مجموعة البيانات هذه في 26 سبتمبر 2018 وهي مجموعة فرعية من أحدث إصدار كامل من مجموعة بيانات MovieLens . يتم تغيير مجموعة البيانات هذه وتحديثها بمرور الوقت.
قام كل مستخدم بتقييم 20 فيلمًا على الأقل. التصنيفات بزيادات نصف نجمة. لا تتضمن مجموعة البيانات هذه بيانات ديموغرافية.
حجم التحميل :
955.28 KiB
حجم مجموعة البيانات :
15.82 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 100836 |
- هيكل الميزة :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
أنواع الأفلام | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
معرّف_الفيلم | موتر | سلسلة | ||
عنوان الفيلم | موتر | سلسلة | ||
الطابع الزمني | موتر | int64 | ||
معرف المستخدم | موتر | سلسلة | ||
تقييم المستخدم | موتر | تعويم 32 |
- أمثلة ( tfds.as_dataframe ):
movie_lens / أحدث الأفلام الصغيرة
وصف التكوين : تحتوي مجموعة البيانات هذه على بيانات عن 9742 فيلمًا تم تصنيفها في أحدث مجموعة بيانات صغيرة.
حجم التحميل :
955.28 KiB
حجم مجموعة البيانات :
910.64 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 9742 |
- هيكل الميزة :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
أنواع الأفلام | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
معرّف_الفيلم | موتر | سلسلة | ||
عنوان الفيلم | موتر | سلسلة |
- أمثلة ( tfds.as_dataframe ):
movie_lens / 100 ألف تقييمات
- وصف التكوين : تحتوي مجموعة البيانات هذه على 100،000 تقييم من 943 مستخدمًا في 1،682 فيلمًا. مجموعة البيانات هذه هي الإصدار الأقدم من مجموعة بيانات MovieLens.
قام كل مستخدم بتقييم 20 فيلمًا على الأقل. التقييمات بزيادات نجمة كاملة. تحتوي مجموعة البيانات هذه على بيانات ديموغرافية للمستخدمين بالإضافة إلى بيانات حول الأفلام والتقييمات.
حجم التحميل :
4.70 MiB
حجم مجموعة البيانات :
32.41 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 100،000 |
- هيكل الميزة :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
دلو_المستخدم | موتر | تعويم 32 | ||
أنواع الأفلام | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
معرّف_الفيلم | موتر | سلسلة | ||
عنوان الفيلم | موتر | سلسلة | ||
raw_user_age | موتر | تعويم 32 | ||
الطابع الزمني | موتر | int64 | ||
user_gender | موتر | منطقي | ||
معرف المستخدم | موتر | سلسلة | ||
user_occupation_label | ClassLabel | int64 | ||
user_occupation_text | موتر | سلسلة | ||
تقييم المستخدم | موتر | تعويم 32 | ||
user_zip_code | موتر | سلسلة |
- أمثلة ( tfds.as_dataframe ):
movie_lens / أفلام 100k
وصف التكوين : تحتوي مجموعة البيانات هذه على بيانات من 1،682 فيلمًا تم تصنيفها في مجموعة بيانات 100 ألف.
حجم التحميل :
4.70 MiB
حجم مجموعة البيانات :
150.35 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 1،682 |
- هيكل الميزة :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
أنواع الأفلام | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
معرّف_الفيلم | موتر | سلسلة | ||
عنوان الفيلم | موتر | سلسلة |
- أمثلة ( tfds.as_dataframe ):
movie_lens / تقييمات 1m
- وصف التكوين : تحتوي مجموعة البيانات هذه على 1،000،209 تصنيفات مجهولة لما يقرب من 3،900 فيلم تم إنتاجها بواسطة 6،040 من مستخدمي MovieLens الذين انضموا إلى MovieLens في
- مجموعة البيانات هذه هي أكبر مجموعة بيانات تتضمن بيانات ديموغرافية.
قام كل مستخدم بتقييم 20 فيلمًا على الأقل. التقييمات بزيادات نجمة كاملة. في البيانات الديموغرافية ، يتم تقسيم القيم العمرية إلى نطاقات ويتم استخدام أدنى قيمة عمرية لكل نطاق في البيانات بدلاً من القيم الفعلية.
حجم التحميل :
5.64 MiB
حجم مجموعة البيانات :
308.42 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 1،000،209 |
- هيكل الميزة :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
دلو_المستخدم | موتر | تعويم 32 | ||
أنواع الأفلام | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
معرّف_الفيلم | موتر | سلسلة | ||
عنوان الفيلم | موتر | سلسلة | ||
الطابع الزمني | موتر | int64 | ||
user_gender | موتر | منطقي | ||
معرف المستخدم | موتر | سلسلة | ||
user_occupation_label | ClassLabel | int64 | ||
user_occupation_text | موتر | سلسلة | ||
تقييم المستخدم | موتر | تعويم 32 | ||
user_zip_code | موتر | سلسلة |
- أمثلة ( tfds.as_dataframe ):
movie_lens / 1m-movies
وصف التكوين : تحتوي مجموعة البيانات هذه على بيانات حوالي 3900 فيلم تم تصنيفها في مجموعة بيانات 1 مليون.
حجم التحميل :
5.64 MiB
حجم مجموعة البيانات :
351.12 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 3883 |
- هيكل الميزة :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
أنواع الأفلام | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
معرّف_الفيلم | موتر | سلسلة | ||
عنوان الفيلم | موتر | سلسلة |
- أمثلة ( tfds.as_dataframe ):
movie_lens / تقييمات 20m
- وصف التكوين : تحتوي مجموعة البيانات هذه على 20000263 تقييمًا عبر 27278 فيلمًا ، تم إنشاؤها بواسطة 138493 مستخدمًا بين 09 يناير 1995 و 31 مارس 2015. تم إنشاء مجموعة البيانات هذه في 17 أكتوبر 2016.
قام كل مستخدم بتقييم 20 فيلمًا على الأقل. التقييمات بزيادات نصف نجمة. لا تحتوي مجموعة البيانات هذه على بيانات ديموغرافية.
حجم التحميل :
189.50 MiB
حجم مجموعة البيانات :
3.10 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 20000263 |
- هيكل الميزة :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
أنواع الأفلام | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
معرّف_الفيلم | موتر | سلسلة | ||
عنوان الفيلم | موتر | سلسلة | ||
الطابع الزمني | موتر | int64 | ||
معرف المستخدم | موتر | سلسلة | ||
تقييم المستخدم | موتر | تعويم 32 |
- أمثلة ( tfds.as_dataframe ):
movie_lens / أفلام 20m
وصف التكوين : تحتوي مجموعة البيانات هذه على بيانات 27278 فيلمًا تم تصنيفها في مجموعة بيانات 20 مليونًا
حجم التحميل :
189.50 MiB
حجم مجموعة البيانات :
2.55 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 27278 |
- هيكل الميزة :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
أنواع الأفلام | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
معرّف_الفيلم | موتر | سلسلة | ||
عنوان الفيلم | موتر | سلسلة |
- أمثلة ( tfds.as_dataframe ):