- توضیحات :
این مجموعه داده شامل مجموعه ای از رتبه بندی فیلم ها از وب سایت MovieLens، یک سرویس توصیه فیلم است. این مجموعه داده توسط GroupLens ، یک گروه تحقیقاتی در دانشگاه مینهسوتا جمعآوری و نگهداری شد. 5 نسخه شامل "25 متر"، "آخرین کوچک"، "100k"، "1m"، "20m" وجود دارد. در همه مجموعههای داده، دادههای فیلم و دادههای رتبهبندی در "movieId" به هم متصل میشوند. مجموعه داده 25 میلیونی، آخرین مجموعه داده کوچک و مجموعه داده 20 میلیونی فقط حاوی داده های فیلم و داده های رتبه بندی هستند. مجموعه داده 1 میلیونی و مجموعه داده 100 هزار نفری علاوه بر دادههای فیلم و رتبهبندی، حاوی دادههای جمعیتی هستند.
- "25m": این آخرین نسخه پایدار مجموعه داده MovieLens است. برای اهداف تحقیقاتی توصیه می شود.
- "latest-small": این زیرمجموعه کوچکی از آخرین نسخه مجموعه داده MovieLens است. با گذشت زمان توسط GroupLens تغییر و به روز می شود.
- "100k": این قدیمی ترین نسخه مجموعه داده های MovieLens است. این یک مجموعه داده کوچک با داده های جمعیتی است.
- "1m": این بزرگترین مجموعه داده MovieLens است که حاوی داده های جمعیتی است.
- "20m": این یکی از پرکاربردترین مجموعه داده های MovieLens در مقالات دانشگاهی به همراه مجموعه داده 1 متری است.
برای هر نسخه، کاربران میتوانند تنها دادههای فیلمها را با افزودن پسوند «-movies» (مثلاً «25m-movies») یا دادههای رتبهبندی همراه با دادههای فیلم (و دادههای کاربران در مجموعههای دادههای 1m و 100k) مشاهده کنند. پسوند "-ratings" (به عنوان مثال "25m-ratings").
ویژگی های زیر در تمام نسخه ها با پسوند "-ratings" گنجانده شده است.
- "movie_id": یک شناسه منحصربهفرد برای فیلم رتبهبندی شده
- "فیلم_عنوان": عنوان فیلم رتبه بندی شده با سال اکران داخل پرانتز
- "ژانر_فیلم": دنباله ای از ژانرهایی که فیلم رتبه بندی شده به آن تعلق دارد
- "user_id": شناسه منحصر به فرد کاربری که رتبه بندی را انجام داده است
- "user_rating": امتیاز رتبه بندی در مقیاس پنج ستاره
- «مهر زمانی»: مُهر زمانی رتبهبندیها که از نیمهشب ساعت جهانی هماهنگ شده (UTC) ۱ ژانویه ۱۹۷۰ بر حسب ثانیه نمایش داده میشود.
علاوه بر این، نسخههای «100k-ratings» و «1m-ratings» ویژگیهای جمعیتی زیر را نیز شامل میشوند.
- "user_gender": جنسیت کاربری که رتبه بندی را انجام داده است. یک مقدار واقعی مربوط به مرد است
- "bucketized_user_age": مقادیر سنی کاربر که رتبه بندی را ایجاد کرده است، مقادیر و محدوده های مربوطه عبارتند از:
- 1: "زیر 18"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
- "user_occupation_label": شغل کاربری که رتبه بندی را با یک برچسب رمزگذاری شده با عدد صحیح ارائه کرده است. برچسب ها از قبل پردازش می شوند تا در نسخه های مختلف سازگار باشند
- "user_occupation_text": شغل کاربری که رتبه بندی را در رشته اصلی ایجاد کرده است. نسخه های مختلف می توانند مجموعه متفاوتی از برچسب های متن خام داشته باشند
- "user_zip_code": کد پستی کاربری که رتبه بندی را انجام داده است
علاوه بر این، مجموعه داده "100k-ratings" دارای ویژگی "raw_user_age" نیز خواهد بود که سن دقیق کاربرانی است که رتبه بندی را انجام داده اند.
مجموعه های داده با پسوند "-movies" فقط دارای ویژگی های "movie_id"، "movie_title" و "movie_genres" هستند.
صفحه اصلی : https://grouplens.org/datasets/movielens/
کد منبع :
tfds.structured.MovieLens
نسخه ها :
-
0.1.1
(پیش فرض): بدون یادداشت انتشار.
-
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movie_lens/25m-ratings (پیکربندی پیشفرض)
- توضیحات پیکربندی : این مجموعه داده شامل 25,000,095 رتبه بندی در بین 62,423 فیلم است که توسط 162,541 کاربر بین 9 ژانویه 1995 تا 21 نوامبر ایجاد شده است.
- این مجموعه داده آخرین نسخه پایدار مجموعه داده MovieLens است که در 21 نوامبر 2019 تولید شده است.
هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه بندی ها با افزایش نیم ستاره است. این مجموعه داده شامل اطلاعات جمعیت شناختی نیست.
حجم دانلود :
249.84 MiB
حجم مجموعه داده :
3.89 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 25,000,095 |
- ساختار ویژگی :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
ژانرهای_فیلم | دنباله (ClassLabel) | (هیچ یک،) | int64 | |
فیلم_id | تانسور | رشته | ||
عنوان_فیلم | تانسور | رشته | ||
مهر زمانی | تانسور | int64 | ||
شناسه کاربر | تانسور | رشته | ||
امتیاز_کاربر | تانسور | float32 |
- مثالها ( tfds.as_dataframe ):
movie_lens/25m-movies
توضیحات پیکربندی : این مجموعه داده حاوی اطلاعات 62423 فیلم است که در مجموعه داده 25 متری رتبه بندی شده اند.
حجم دانلود :
249.84 MiB
حجم مجموعه داده :
5.71 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 62,423 |
- ساختار ویژگی :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
ژانرهای_فیلم | دنباله (ClassLabel) | (هیچ یک،) | int64 | |
فیلم_id | تانسور | رشته | ||
عنوان_فیلم | تانسور | رشته |
- مثالها ( tfds.as_dataframe ):
movie_lens/جدیدترین-ردهبندیهای کوچک
- توضیحات پیکربندی : این مجموعه داده شامل 100,836 رتبه بندی در بین 9,742 فیلم است که توسط 610 کاربر بین 29 مارس 1996 تا 24 سپتامبر 2018 ایجاد شده است. این مجموعه داده در 26 سپتامبر 2018 ایجاد شده است و زیر مجموعه ای از آخرین نسخه کامل مجموعه داده MovieLens است. . این مجموعه داده در طول زمان تغییر و به روز می شود.
هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه بندی ها با افزایش نیم ستاره است. این مجموعه داده شامل اطلاعات جمعیت شناختی نیست.
حجم دانلود :
955.28 KiB
حجم مجموعه داده :
15.82 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 100,836 |
- ساختار ویژگی :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
ژانرهای_فیلم | دنباله (ClassLabel) | (هیچ یک،) | int64 | |
فیلم_id | تانسور | رشته | ||
عنوان_فیلم | تانسور | رشته | ||
مهر زمانی | تانسور | int64 | ||
شناسه کاربر | تانسور | رشته | ||
امتیاز_کاربر | تانسور | float32 |
- مثالها ( tfds.as_dataframe ):
فیلم_لنز/جدیدترین-فیلم-های-کوچک
توضیحات پیکربندی : این مجموعه داده حاوی دادههای 9742 فیلم است که در آخرین مجموعه داده کوچک رتبهبندی شدهاند.
حجم دانلود :
955.28 KiB
اندازه مجموعه داده :
910.64 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 9742 |
- ساختار ویژگی :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
ژانرهای_فیلم | دنباله (ClassLabel) | (هیچ یک،) | int64 | |
فیلم_id | تانسور | رشته | ||
عنوان_فیلم | تانسور | رشته |
- مثالها ( tfds.as_dataframe ):
movie_lens/100k-rats
- توضیحات پیکربندی : این مجموعه داده شامل 100000 رتبه بندی از 943 کاربر در 1682 فیلم است. این مجموعه داده قدیمی ترین نسخه مجموعه داده MovieLens است.
هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبهبندیها با افزایش ستاره کامل است. این مجموعه داده شامل داده های جمعیت شناختی کاربران علاوه بر داده های مربوط به فیلم ها و رتبه بندی است.
حجم دانلود :
4.70 MiB
حجم مجموعه داده :
32.41 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 100000 |
- ساختار ویژگی :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
bucketized_user_age | تانسور | float32 | ||
ژانرهای_فیلم | دنباله (ClassLabel) | (هیچ یک،) | int64 | |
فیلم_id | تانسور | رشته | ||
عنوان_فیلم | تانسور | رشته | ||
raw_user_age | تانسور | float32 | ||
مهر زمانی | تانسور | int64 | ||
user_gender | تانسور | بوول | ||
شناسه کاربر | تانسور | رشته | ||
user_occupation_label | ClassLabel | int64 | ||
user_occupation_text | تانسور | رشته | ||
امتیاز_کاربر | تانسور | float32 | ||
user_zip_code | تانسور | رشته |
- مثالها ( tfds.as_dataframe ):
movie_lens/100k-movies
توضیحات پیکربندی : این مجموعه داده شامل دادههای 1682 فیلم است که در مجموعه دادههای 100k رتبهبندی شدهاند.
حجم دانلود :
4.70 MiB
حجم مجموعه داده :
150.35 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 1682 |
- ساختار ویژگی :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
ژانرهای_فیلم | دنباله (ClassLabel) | (هیچ یک،) | int64 | |
فیلم_id | تانسور | رشته | ||
عنوان_فیلم | تانسور | رشته |
- مثالها ( tfds.as_dataframe ):
فیلم_لنز/1 متر امتیاز
- توضیحات پیکربندی : این مجموعه داده شامل 1000209 رتبه ناشناس از تقریباً 3900 فیلم ساخته شده توسط 6040 کاربر MovieLens است که به MovieLens پیوسته اند.
- این مجموعه داده بزرگترین مجموعه داده ای است که شامل داده های جمعیتی است.
هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبهبندیها با افزایش ستاره کامل است. در دادههای جمعیتی، مقادیر سنی به محدودهها تقسیم میشوند و کمترین مقدار سن برای هر محدوده به جای مقادیر واقعی در دادهها استفاده میشود.
حجم دانلود :
5.64 MiB
حجم مجموعه داده :
308.42 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 1,000,209 |
- ساختار ویژگی :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
bucketized_user_age | تانسور | float32 | ||
ژانرهای_فیلم | دنباله (ClassLabel) | (هیچ یک،) | int64 | |
فیلم_id | تانسور | رشته | ||
عنوان_فیلم | تانسور | رشته | ||
مهر زمانی | تانسور | int64 | ||
user_gender | تانسور | بوول | ||
شناسه کاربر | تانسور | رشته | ||
user_occupation_label | ClassLabel | int64 | ||
user_occupation_text | تانسور | رشته | ||
امتیاز_کاربر | تانسور | float32 | ||
user_zip_code | تانسور | رشته |
- مثالها ( tfds.as_dataframe ):
movie_lens/1m-movies
توضیحات پیکربندی : این مجموعه داده حاوی داده های تقریباً 3900 فیلم است که در مجموعه داده 1 متری رتبه بندی شده اند.
حجم دانلود :
5.64 MiB
حجم مجموعه داده :
351.12 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 3,883 |
- ساختار ویژگی :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
ژانرهای_فیلم | دنباله (ClassLabel) | (هیچ یک،) | int64 | |
فیلم_id | تانسور | رشته | ||
عنوان_فیلم | تانسور | رشته |
- مثالها ( tfds.as_dataframe ):
فیلم_لنز/20 متر امتیاز
- توضیحات پیکربندی : این مجموعه داده شامل 20,000,263 رتبه بندی در بین 27,278 فیلم است که توسط 138,493 کاربر بین 9 ژانویه 1995 تا 31 مارس 2015 ایجاد شده است. این مجموعه داده در 17 اکتبر 2016 ایجاد شده است.
هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبهبندیها با افزایش نیمستاره است. این مجموعه داده حاوی اطلاعات جمعیتی نیست.
حجم دانلود :
189.50 MiB
حجم مجموعه داده :
3.10 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 20000263 |
- ساختار ویژگی :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
ژانرهای_فیلم | دنباله (ClassLabel) | (هیچ یک،) | int64 | |
فیلم_id | تانسور | رشته | ||
عنوان_فیلم | تانسور | رشته | ||
مهر زمانی | تانسور | int64 | ||
شناسه کاربر | تانسور | رشته | ||
امتیاز_کاربر | تانسور | float32 |
- مثالها ( tfds.as_dataframe ):
movie_lens/20m-movies
توضیحات پیکربندی : این مجموعه داده حاوی داده های 27278 فیلم است که در مجموعه داده 20 متری رتبه بندی شده اند.
حجم دانلود :
189.50 MiB
حجم مجموعه داده :
2.55 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 27278 |
- ساختار ویژگی :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
ژانرهای_فیلم | دنباله (ClassLabel) | (هیچ یک،) | int64 | |
فیلم_id | تانسور | رشته | ||
عنوان_فیلم | تانسور | رشته |
- مثالها ( tfds.as_dataframe ):