TFDS এখন Croissant 🥐 ফরম্যাট সমর্থন করে! আরও জানতে ডকুমেন্টেশন পড়ুন।

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

মুভিলেন্স

বর্ণনা :

এই ডেটাসেটে মুভি লেন্স ওয়েবসাইট থেকে মুভি রেটিংগুলির একটি সেট রয়েছে, একটি মুভি সুপারিশ পরিষেবা৷ এই ডেটাসেটটি মিনেসোটা বিশ্ববিদ্যালয়ের একটি গবেষণা গোষ্ঠী GroupLens দ্বারা সংগ্রহ ও রক্ষণাবেক্ষণ করা হয়েছে। এখানে 5টি সংস্করণ অন্তর্ভুক্ত রয়েছে: "25m", "সর্বশেষ-ছোট", "100k", "1m", "20m"। সমস্ত ডেটাসেটে, চলচ্চিত্রের ডেটা এবং রেটিং ডেটা "movieId"-এ যোগ করা হয়। 25m ডেটাসেট, সাম্প্রতিক-ছোট ডেটাসেট এবং 20m ডেটাসেটে শুধুমাত্র মুভি ডেটা এবং রেটিং ডেটা থাকে৷ 1m ডেটাসেট এবং 100k ডেটাসেটে চলচ্চিত্র এবং রেটিং ডেটা ছাড়াও জনসংখ্যার ডেটা রয়েছে৷

"25m": এটি MovieLens ডেটাসেটের সর্বশেষ স্থিতিশীল সংস্করণ। এটি গবেষণার উদ্দেশ্যে সুপারিশ করা হয়।
"latest-small": এটি MovieLens ডেটাসেটের সর্বশেষ সংস্করণের একটি ছোট উপসেট। GroupLens দ্বারা সময়ের সাথে সাথে এটি পরিবর্তিত এবং আপডেট করা হয়।
"100k": এটি MovieLens ডেটাসেটের প্রাচীনতম সংস্করণ। এটি ডেমোগ্রাফিক ডেটা সহ একটি ছোট ডেটাসেট।
"1m": এটি হল বৃহত্তম MovieLens ডেটাসেট যাতে জনসংখ্যা সংক্রান্ত ডেটা রয়েছে৷
"20m": এটি 1m ডেটাসেটের সাথে একাডেমিক কাগজপত্রে সর্বাধিক ব্যবহৃত MovieLens ডেটাসেটগুলির মধ্যে একটি৷

প্রতিটি সংস্করণের জন্য, ব্যবহারকারীরা "-মুভিজ" প্রত্যয় (যেমন "25m-চলচ্চিত্র") যোগ করে শুধুমাত্র মুভির ডেটা দেখতে পারেন অথবা মুভি ডেটার সাথে যুক্ত রেটিং ডেটা (এবং 1m এবং 100k ডেটাসেটে ব্যবহারকারীদের ডেটা) যোগ করে "-রেটিং" প্রত্যয় (যেমন "25m-রেটিং")।

নীচের বৈশিষ্ট্যগুলি "-রেটিং" প্রত্যয় সহ সমস্ত সংস্করণে অন্তর্ভুক্ত করা হয়েছে৷

"movie_id": রেট করা সিনেমার একটি অনন্য শনাক্তকারী
"movie_title": বন্ধনীতে মুক্তির বছর সহ রেট করা মুভির শিরোনাম
"movie_genres": শৈলীর একটি ক্রম যার সাথে রেট করা মুভির অন্তর্গত
"user_id": রেটিং প্রদানকারী ব্যবহারকারীর একটি অনন্য শনাক্তকারী
"user_rating": ফাইভ-স্টার স্কেলে রেটিং এর স্কোর
"টাইমস্ট্যাম্প": 1 জানুয়ারী, 1970 এর মধ্যরাতের সমন্বিত ইউনিভার্সাল টাইম (UTC) থেকে সেকেন্ডে উপস্থাপন করা রেটিংগুলির টাইমস্ট্যাম্প

এছাড়াও "100k-রেটিং" এবং "1m-রেটিং" সংস্করণে নিম্নলিখিত জনসংখ্যাগত বৈশিষ্ট্যগুলি অন্তর্ভুক্ত রয়েছে৷

"user_gender": রেটিং দেওয়া ব্যবহারকারীর লিঙ্গ; একটি সত্যিকারের মান পুরুষের সাথে মিলে যায়
"bucketized_user_age": রেটিং করা ব্যবহারকারীর বকেটাইজড বয়সের মান, মান এবং সংশ্লিষ্ট ব্যাপ্তিগুলি হল:
- 1: "18 বছরের কম"
- 18: "18-24"
- 25: "25-34"
- ৩৫: "৩৫-৪৪"
- 45: "45-49"
- ৫০: "৫০-৫৫"
- 56: "56+"
"user_occupation_label": একটি পূর্ণসংখ্যা-এনকোডেড লেবেল দ্বারা উপস্থাপিত রেটিং প্রদানকারী ব্যবহারকারীর পেশা; লেবেলগুলি বিভিন্ন সংস্করণে সামঞ্জস্যপূর্ণ হওয়ার জন্য প্রিপ্রসেস করা হয়
"user_occupation_text": মূল স্ট্রিংয়ে রেটিং দেওয়া ব্যবহারকারীর পেশা; বিভিন্ন সংস্করণে কাঁচা পাঠ্য লেবেলের বিভিন্ন সেট থাকতে পারে
"user_zip_code": যে ব্যবহারকারী রেটিং দিয়েছেন তার জিপ কোড

এছাড়াও, "100k-রেটিং" ডেটাসেটে "raw_user_age" বৈশিষ্ট্যও থাকবে যা রেটিং দেওয়া ব্যবহারকারীদের সঠিক বয়স।

"-মুভিস" প্রত্যয় সহ ডেটাসেটে শুধুমাত্র "movie_id", "movie_title" এবং "movie_genres" বৈশিষ্ট্য থাকে।

অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন
হোমপেজ : https://grouplens.org/datasets/movielens/
উত্স কোড : tfds.structured.Movielens
সংস্করণ :
- 0.1.1 (ডিফল্ট): কোনো রিলিজ নোট নেই।
তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-রেটিং (ডিফল্ট কনফিগারেশন)

কনফিগারেশনের বিবরণ : এই ডেটাসেটে 62,423টি সিনেমা জুড়ে 25,000,095 রেটিং রয়েছে, যা 09 জানুয়ারী, 1995 এবং 21 নভেম্বরের মধ্যে 162,541 জন ব্যবহারকারী দ্বারা তৈরি করা হয়েছে,
এই ডেটাসেটটি MovieLens ডেটাসেটের সর্বশেষ স্থিতিশীল সংস্করণ, 21 নভেম্বর, 2019-এ তৈরি করা হয়েছে।

প্রতিটি ব্যবহারকারী কমপক্ষে 20টি চলচ্চিত্র রেট করেছেন। রেটিং অর্ধ-তারকা বৃদ্ধি হয়. এই ডেটাসেটে ডেমোগ্রাফিক ডেটা অন্তর্ভুক্ত নয়।

ডাউনলোড সাইজ : 249.84 MiB
ডেটাসেটের আকার : 3.89 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	25,000,095

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
মুভি_জেনার	সিকোয়েন্স (ক্লাসলেবেল)	(কোনটিই নয়,)	int64
movie_id	টেনসর		স্ট্রিং
মুভি_টাইটেল	টেনসর		স্ট্রিং
টাইমস্ট্যাম্প	টেনসর		int64
ব্যবহারকারী আইডি	টেনসর		স্ট্রিং
ব্যবহারকারী রেটিং	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

movielens/25m-চলচ্চিত্র

কনফিগারেশনের বিবরণ : এই ডেটাসেটে 25m ডেটাসেটে রেট করা 62,423টি চলচ্চিত্রের ডেটা রয়েছে।
ডাউনলোড সাইজ : 249.84 MiB
ডেটাসেটের আকার : 5.71 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	62,423

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
মুভি_জেনার	সিকোয়েন্স (ক্লাসলেবেল)	(কোনটিই নয়,)	int64
movie_id	টেনসর		স্ট্রিং
মুভি_টাইটেল	টেনসর		স্ট্রিং

উদাহরণ ( tfds.as_dataframe ):

movielens/সর্বশেষ-ছোট-রেটিং

কনফিগারেশনের বিবরণ : এই ডেটাসেটটিতে 9,742টি মুভি জুড়ে 100,836 রেটিং রয়েছে, যা 29 মার্চ, 1996 এবং 24 সেপ্টেম্বর, 2018-এর মধ্যে 610 জন ব্যবহারকারী দ্বারা তৈরি করা হয়েছে। এই ডেটাসেটটি 26 সেপ্টেম্বর, 2018-এ তৈরি করা হয়েছে এবং এটি MovieLens-এর সম্পূর্ণ সর্বশেষ ডেটাসেটের একটি উপসেট। . এই ডেটাসেট সময়ের সাথে পরিবর্তিত এবং আপডেট করা হয়।

ডাউনলোড সাইজ : 955.28 KiB
ডেটাসেটের আকার : 15.82 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	100,836

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
মুভি_জেনার	সিকোয়েন্স (ক্লাসলেবেল)	(কোনটিই নয়,)	int64
movie_id	টেনসর		স্ট্রিং
মুভি_টাইটেল	টেনসর		স্ট্রিং
টাইমস্ট্যাম্প	টেনসর		int64
ব্যবহারকারী আইডি	টেনসর		স্ট্রিং
ব্যবহারকারী রেটিং	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

movielens/ সাম্প্রতিক-ছোট-চলচ্চিত্র

কনফিগার বিবরণ : এই ডেটাসেটে সর্বশেষ-ছোট ডেটাসেটে রেট করা 9,742টি চলচ্চিত্রের ডেটা রয়েছে।
ডাউনলোড সাইজ : 955.28 KiB
ডেটাসেটের আকার : 910.64 KiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	৯,৭৪২

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
মুভি_জেনার	সিকোয়েন্স (ক্লাসলেবেল)	(কোনটিই নয়,)	int64
movie_id	টেনসর		স্ট্রিং
মুভি_টাইটেল	টেনসর		স্ট্রিং

উদাহরণ ( tfds.as_dataframe ):

movielens/100k-রেটিং

কনফিগারেশনের বিবরণ : এই ডেটাসেটে 1,682টি চলচ্চিত্রে 943 জন ব্যবহারকারীর কাছ থেকে 100,000 রেটিং রয়েছে। এই ডেটাসেটটি মুভিলেন্স ডেটাসেটের প্রাচীনতম সংস্করণ।

প্রতিটি ব্যবহারকারী কমপক্ষে 20টি চলচ্চিত্র রেট করেছেন। রেটিং সম্পূর্ণ-তারকা বৃদ্ধি হয়. এই ডেটাসেটে চলচ্চিত্র এবং রেটিং সম্পর্কিত ডেটা ছাড়াও ব্যবহারকারীদের জনসংখ্যার তথ্য রয়েছে।

ডাউনলোড 4.70 MiB
ডেটাসেটের আকার : 32.41 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	100,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
bucketized_user_age	টেনসর		float32
মুভি_জেনার	সিকোয়েন্স (ক্লাসলেবেল)	(কোনটিই নয়,)	int64
movie_id	টেনসর		স্ট্রিং
মুভি_টাইটেল	টেনসর		স্ট্রিং
raw_user_age	টেনসর		float32
টাইমস্ট্যাম্প	টেনসর		int64
user_gender	টেনসর		bool
ব্যবহারকারী আইডি	টেনসর		স্ট্রিং
ব্যবহারকারীর_পেশা_লেবেল	ক্লাসলেবেল		int64
user_occupation_text	টেনসর		স্ট্রিং
ব্যবহারকারী রেটিং	টেনসর		float32
user_zip_code	টেনসর		স্ট্রিং

উদাহরণ ( tfds.as_dataframe ):

movielens/100k-মুভি

কনফিগার বিবরণ : এই ডেটাসেটে 100k ডেটাসেটে রেট করা 1,682টি চলচ্চিত্রের ডেটা রয়েছে।
ডাউনলোড 4.70 MiB
ডেটাসেটের আকার : 150.35 KiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,682

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
মুভি_জেনার	সিকোয়েন্স (ক্লাসলেবেল)	(কোনটিই নয়,)	int64
movie_id	টেনসর		স্ট্রিং
মুভি_টাইটেল	টেনসর		স্ট্রিং

উদাহরণ ( tfds.as_dataframe ):

movielens/1m-রেটিং

কনফিগারেশনের বিবরণ : এই ডেটাসেটে 1,000,209টি বেনামী রেটিং রয়েছে প্রায় 3,900টি মুভি যা 6,040 মুভিলেন্স ব্যবহারকারীদের দ্বারা তৈরি করা হয়েছে যারা মুভিলেন্সে যোগ দিয়েছিলেন
এই ডেটাসেট হল বৃহত্তম ডেটাসেট যা জনসংখ্যা সংক্রান্ত ডেটা অন্তর্ভুক্ত করে।

প্রতিটি ব্যবহারকারী কমপক্ষে 20টি চলচ্চিত্র রেট করেছেন। রেটিং সম্পূর্ণ-তারকা বৃদ্ধি হয়. ডেমোগ্রাফিক ডেটাতে, বয়সের মানগুলিকে ব্যাপ্তিতে ভাগ করা হয় এবং প্রতিটি ব্যাপ্তির জন্য সর্বনিম্ন বয়সের মানটি প্রকৃত মানের পরিবর্তে ডেটাতে ব্যবহার করা হয়।

ডাউনলোড সাইজ : 5.64 MiB
ডেটাসেটের আকার : 308.42 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,000,209

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
bucketized_user_age	টেনসর		float32
মুভি_জেনার	সিকোয়েন্স (ক্লাসলেবেল)	(কোনটিই নয়,)	int64
movie_id	টেনসর		স্ট্রিং
মুভি_টাইটেল	টেনসর		স্ট্রিং
টাইমস্ট্যাম্প	টেনসর		int64
user_gender	টেনসর		bool
ব্যবহারকারী আইডি	টেনসর		স্ট্রিং
ব্যবহারকারীর_পেশা_লেবেল	ক্লাসলেবেল		int64
user_occupation_text	টেনসর		স্ট্রিং
ব্যবহারকারী রেটিং	টেনসর		float32
user_zip_code	টেনসর		স্ট্রিং

উদাহরণ ( tfds.as_dataframe ):

movielens/1m-চলচ্চিত্র

কনফিগারের বিবরণ : এই ডেটাসেটে 1m ডেটাসেটে রেট করা প্রায় 3,900টি চলচ্চিত্রের ডেটা রয়েছে।
ডাউনলোড সাইজ : 5.64 MiB
ডেটাসেটের আকার : 351.12 KiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	৩,৮৮৩

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
মুভি_জেনার	সিকোয়েন্স (ক্লাসলেবেল)	(কোনটিই নয়,)	int64
movie_id	টেনসর		স্ট্রিং
মুভি_টাইটেল	টেনসর		স্ট্রিং

উদাহরণ ( tfds.as_dataframe ):

movielens/20m-রেটিং

কনফিগারেশনের বিবরণ : এই ডেটাসেটে 27,278টি সিনেমা জুড়ে 20,000,263 রেটিং রয়েছে, যা 09 জানুয়ারী, 1995 এবং 31 মার্চ, 2015 এর মধ্যে 138,493 জন ব্যবহারকারী দ্বারা তৈরি করা হয়েছে৷ এই ডেটাসেটটি 17 অক্টোবর, 2016 এ তৈরি করা হয়েছিল৷

প্রতিটি ব্যবহারকারী কমপক্ষে 20টি চলচ্চিত্র রেট করেছেন। রেটিং অর্ধ-তারকা বৃদ্ধি হয়. এই ডেটাসেটে ডেমোগ্রাফিক ডেটা নেই।

ডাউনলোডের আকার : 189.50 MiB
ডেটাসেটের আকার : 3.10 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	20,000,263

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
মুভি_জেনার	সিকোয়েন্স (ক্লাসলেবেল)	(কোনটিই নয়,)	int64
movie_id	টেনসর		স্ট্রিং
মুভি_টাইটেল	টেনসর		স্ট্রিং
টাইমস্ট্যাম্প	টেনসর		int64
ব্যবহারকারী আইডি	টেনসর		স্ট্রিং
ব্যবহারকারী রেটিং	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

movielens/20m-চলচ্চিত্র

কনফিগারেশনের বিবরণ : এই ডেটাসেটে 20m ডেটাসেটে রেট করা 27,278টি চলচ্চিত্রের ডেটা রয়েছে
ডাউনলোডের আকার : 189.50 MiB
ডেটাসেটের আকার : 2.55 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	27,278

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
মুভি_জেনার	সিকোয়েন্স (ক্লাসলেবেল)	(কোনটিই নয়,)	int64
movie_id	টেনসর		স্ট্রিং
মুভি_টাইটেল	টেনসর		স্ট্রিং

উদাহরণ ( tfds.as_dataframe ):