মুভিলেন্স

  • বর্ণনা :

এই ডেটাসেটে মুভি লেন্স ওয়েবসাইট থেকে মুভি রেটিংগুলির একটি সেট রয়েছে, একটি মুভি সুপারিশ পরিষেবা৷ এই ডেটাসেটটি মিনেসোটা বিশ্ববিদ্যালয়ের একটি গবেষণা গোষ্ঠী GroupLens দ্বারা সংগ্রহ ও রক্ষণাবেক্ষণ করা হয়েছে। এখানে 5টি সংস্করণ অন্তর্ভুক্ত রয়েছে: "25m", "সর্বশেষ-ছোট", "100k", "1m", "20m"। সমস্ত ডেটাসেটে, চলচ্চিত্রের ডেটা এবং রেটিং ডেটা "movieId"-এ যোগ করা হয়। 25m ডেটাসেট, সাম্প্রতিক-ছোট ডেটাসেট এবং 20m ডেটাসেটে শুধুমাত্র মুভি ডেটা এবং রেটিং ডেটা থাকে৷ 1m ডেটাসেট এবং 100k ডেটাসেটে চলচ্চিত্র এবং রেটিং ডেটা ছাড়াও জনসংখ্যার ডেটা রয়েছে৷

  • "25m": এটি MovieLens ডেটাসেটের সর্বশেষ স্থিতিশীল সংস্করণ। এটি গবেষণার উদ্দেশ্যে সুপারিশ করা হয়।
  • "latest-small": এটি MovieLens ডেটাসেটের সর্বশেষ সংস্করণের একটি ছোট উপসেট। GroupLens দ্বারা সময়ের সাথে সাথে এটি পরিবর্তিত এবং আপডেট করা হয়।
  • "100k": এটি MovieLens ডেটাসেটের প্রাচীনতম সংস্করণ। এটি ডেমোগ্রাফিক ডেটা সহ একটি ছোট ডেটাসেট।
  • "1m": এটি হল বৃহত্তম MovieLens ডেটাসেট যাতে জনসংখ্যা সংক্রান্ত ডেটা রয়েছে৷
  • "20m": এটি 1m ডেটাসেটের সাথে একাডেমিক কাগজপত্রে সর্বাধিক ব্যবহৃত MovieLens ডেটাসেটগুলির মধ্যে একটি৷

প্রতিটি সংস্করণের জন্য, ব্যবহারকারীরা "-মুভিজ" প্রত্যয় (যেমন "25m-চলচ্চিত্র") যোগ করে শুধুমাত্র মুভির ডেটা দেখতে পারেন অথবা মুভি ডেটার সাথে যুক্ত রেটিং ডেটা (এবং 1m এবং 100k ডেটাসেটে ব্যবহারকারীদের ডেটা) যোগ করে "-রেটিং" প্রত্যয় (যেমন "25m-রেটিং")।

নীচের বৈশিষ্ট্যগুলি "-রেটিং" প্রত্যয় সহ সমস্ত সংস্করণে অন্তর্ভুক্ত করা হয়েছে৷

  • "movie_id": রেট করা সিনেমার একটি অনন্য শনাক্তকারী
  • "movie_title": বন্ধনীতে মুক্তির বছর সহ রেট করা মুভির শিরোনাম
  • "movie_genres": শৈলীর একটি ক্রম যার সাথে রেট করা মুভির অন্তর্গত
  • "user_id": রেটিং প্রদানকারী ব্যবহারকারীর একটি অনন্য শনাক্তকারী
  • "user_rating": ফাইভ-স্টার স্কেলে রেটিং এর স্কোর
  • "টাইমস্ট্যাম্প": 1 জানুয়ারী, 1970 এর মধ্যরাতের সমন্বিত ইউনিভার্সাল টাইম (UTC) থেকে সেকেন্ডে উপস্থাপন করা রেটিংগুলির টাইমস্ট্যাম্প

এছাড়াও "100k-রেটিং" এবং "1m-রেটিং" সংস্করণে নিম্নলিখিত জনসংখ্যাগত বৈশিষ্ট্যগুলি অন্তর্ভুক্ত রয়েছে৷

  • "user_gender": রেটিং দেওয়া ব্যবহারকারীর লিঙ্গ; একটি সত্যিকারের মান পুরুষের সাথে মিলে যায়
  • "bucketized_user_age": রেটিং করা ব্যবহারকারীর বকেটাইজড বয়সের মান, মান এবং সংশ্লিষ্ট ব্যাপ্তিগুলি হল:
    • 1: "18 বছরের কম"
    • 18: "18-24"
    • 25: "25-34"
    • ৩৫: "৩৫-৪৪"
    • 45: "45-49"
    • ৫০: "৫০-৫৫"
    • 56: "56+"
  • "user_occupation_label": একটি পূর্ণসংখ্যা-এনকোডেড লেবেল দ্বারা উপস্থাপিত রেটিং প্রদানকারী ব্যবহারকারীর পেশা; লেবেলগুলি বিভিন্ন সংস্করণে সামঞ্জস্যপূর্ণ হওয়ার জন্য প্রিপ্রসেস করা হয়
  • "user_occupation_text": মূল স্ট্রিংয়ে রেটিং দেওয়া ব্যবহারকারীর পেশা; বিভিন্ন সংস্করণে কাঁচা পাঠ্য লেবেলের বিভিন্ন সেট থাকতে পারে
  • "user_zip_code": যে ব্যবহারকারী রেটিং দিয়েছেন তার জিপ কোড

এছাড়াও, "100k-রেটিং" ডেটাসেটে "raw_user_age" বৈশিষ্ট্যও থাকবে যা রেটিং দেওয়া ব্যবহারকারীদের সঠিক বয়স।

"-মুভিস" প্রত্যয় সহ ডেটাসেটে শুধুমাত্র "movie_id", "movie_title" এবং "movie_genres" বৈশিষ্ট্য থাকে।

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-রেটিং (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে 62,423টি সিনেমা জুড়ে 25,000,095 রেটিং রয়েছে, যা 09 জানুয়ারী, 1995 এবং 21 নভেম্বরের মধ্যে 162,541 জন ব্যবহারকারী দ্বারা তৈরি করা হয়েছে,
  • এই ডেটাসেটটি MovieLens ডেটাসেটের সর্বশেষ স্থিতিশীল সংস্করণ, 21 নভেম্বর, 2019-এ তৈরি করা হয়েছে।

প্রতিটি ব্যবহারকারী কমপক্ষে 20টি চলচ্চিত্র রেট করেছেন। রেটিং অর্ধ-তারকা বৃদ্ধি হয়. এই ডেটাসেটে ডেমোগ্রাফিক ডেটা অন্তর্ভুক্ত নয়।

  • ডাউনলোড সাইজ : 249.84 MiB

  • ডেটাসেটের আকার : 3.89 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 25,000,095
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মুভি_জেনার সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
movie_id টেনসর স্ট্রিং
মুভি_টাইটেল টেনসর স্ট্রিং
টাইমস্ট্যাম্প টেনসর int64
ব্যবহারকারী আইডি টেনসর স্ট্রিং
ব্যবহারকারী রেটিং টেনসর float32

movielens/25m-চলচ্চিত্র

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে 25m ডেটাসেটে রেট করা 62,423টি চলচ্চিত্রের ডেটা রয়েছে।

  • ডাউনলোড সাইজ : 249.84 MiB

  • ডেটাসেটের আকার : 5.71 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 62,423
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মুভি_জেনার সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
movie_id টেনসর স্ট্রিং
মুভি_টাইটেল টেনসর স্ট্রিং

movielens/সর্বশেষ-ছোট-রেটিং

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটটিতে 9,742টি মুভি জুড়ে 100,836 রেটিং রয়েছে, যা 29 মার্চ, 1996 এবং 24 সেপ্টেম্বর, 2018-এর মধ্যে 610 জন ব্যবহারকারী দ্বারা তৈরি করা হয়েছে। এই ডেটাসেটটি 26 সেপ্টেম্বর, 2018-এ তৈরি করা হয়েছে এবং এটি MovieLens-এর সম্পূর্ণ সর্বশেষ ডেটাসেটের একটি উপসেট। . এই ডেটাসেট সময়ের সাথে পরিবর্তিত এবং আপডেট করা হয়।

প্রতিটি ব্যবহারকারী কমপক্ষে 20টি চলচ্চিত্র রেট করেছেন। রেটিং অর্ধ-তারকা বৃদ্ধি হয়. এই ডেটাসেটে ডেমোগ্রাফিক ডেটা অন্তর্ভুক্ত নয়।

  • ডাউনলোড সাইজ : 955.28 KiB

  • ডেটাসেটের আকার : 15.82 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 100,836
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মুভি_জেনার সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
movie_id টেনসর স্ট্রিং
মুভি_টাইটেল টেনসর স্ট্রিং
টাইমস্ট্যাম্প টেনসর int64
ব্যবহারকারী আইডি টেনসর স্ট্রিং
ব্যবহারকারী রেটিং টেনসর float32

movielens/ সাম্প্রতিক-ছোট-চলচ্চিত্র

  • কনফিগার বিবরণ : এই ডেটাসেটে সর্বশেষ-ছোট ডেটাসেটে রেট করা 9,742টি চলচ্চিত্রের ডেটা রয়েছে।

  • ডাউনলোড সাইজ : 955.28 KiB

  • ডেটাসেটের আকার : 910.64 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' ৯,৭৪২
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মুভি_জেনার সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
movie_id টেনসর স্ট্রিং
মুভি_টাইটেল টেনসর স্ট্রিং

movielens/100k-রেটিং

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে 1,682টি চলচ্চিত্রে 943 জন ব্যবহারকারীর কাছ থেকে 100,000 রেটিং রয়েছে। এই ডেটাসেটটি মুভিলেন্স ডেটাসেটের প্রাচীনতম সংস্করণ।

প্রতিটি ব্যবহারকারী কমপক্ষে 20টি চলচ্চিত্র রেট করেছেন। রেটিং সম্পূর্ণ-তারকা বৃদ্ধি হয়. এই ডেটাসেটে চলচ্চিত্র এবং রেটিং সম্পর্কিত ডেটা ছাড়াও ব্যবহারকারীদের জনসংখ্যার তথ্য রয়েছে।

  • ডাউনলোড 4.70 MiB

  • ডেটাসেটের আকার : 32.41 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 100,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
bucketized_user_age টেনসর float32
মুভি_জেনার সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
movie_id টেনসর স্ট্রিং
মুভি_টাইটেল টেনসর স্ট্রিং
raw_user_age টেনসর float32
টাইমস্ট্যাম্প টেনসর int64
user_gender টেনসর bool
ব্যবহারকারী আইডি টেনসর স্ট্রিং
ব্যবহারকারীর_পেশা_লেবেল ক্লাসলেবেল int64
user_occupation_text টেনসর স্ট্রিং
ব্যবহারকারী রেটিং টেনসর float32
user_zip_code টেনসর স্ট্রিং

movielens/100k-মুভি

  • কনফিগার বিবরণ : এই ডেটাসেটে 100k ডেটাসেটে রেট করা 1,682টি চলচ্চিত্রের ডেটা রয়েছে।

  • ডাউনলোড 4.70 MiB

  • ডেটাসেটের আকার : 150.35 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,682
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মুভি_জেনার সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
movie_id টেনসর স্ট্রিং
মুভি_টাইটেল টেনসর স্ট্রিং

movielens/1m-রেটিং

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে 1,000,209টি বেনামী রেটিং রয়েছে প্রায় 3,900টি মুভি যা 6,040 মুভিলেন্স ব্যবহারকারীদের দ্বারা তৈরি করা হয়েছে যারা মুভিলেন্সে যোগ দিয়েছিলেন
  • এই ডেটাসেট হল বৃহত্তম ডেটাসেট যা জনসংখ্যা সংক্রান্ত ডেটা অন্তর্ভুক্ত করে।

প্রতিটি ব্যবহারকারী কমপক্ষে 20টি চলচ্চিত্র রেট করেছেন। রেটিং সম্পূর্ণ-তারকা বৃদ্ধি হয়. ডেমোগ্রাফিক ডেটাতে, বয়সের মানগুলিকে ব্যাপ্তিতে ভাগ করা হয় এবং প্রতিটি ব্যাপ্তির জন্য সর্বনিম্ন বয়সের মানটি প্রকৃত মানের পরিবর্তে ডেটাতে ব্যবহার করা হয়।

  • ডাউনলোড সাইজ : 5.64 MiB

  • ডেটাসেটের আকার : 308.42 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,000,209
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
bucketized_user_age টেনসর float32
মুভি_জেনার সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
movie_id টেনসর স্ট্রিং
মুভি_টাইটেল টেনসর স্ট্রিং
টাইমস্ট্যাম্প টেনসর int64
user_gender টেনসর bool
ব্যবহারকারী আইডি টেনসর স্ট্রিং
ব্যবহারকারীর_পেশা_লেবেল ক্লাসলেবেল int64
user_occupation_text টেনসর স্ট্রিং
ব্যবহারকারী রেটিং টেনসর float32
user_zip_code টেনসর স্ট্রিং

movielens/1m-চলচ্চিত্র

  • কনফিগারের বিবরণ : এই ডেটাসেটে 1m ডেটাসেটে রেট করা প্রায় 3,900টি চলচ্চিত্রের ডেটা রয়েছে।

  • ডাউনলোড সাইজ : 5.64 MiB

  • ডেটাসেটের আকার : 351.12 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' ৩,৮৮৩
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মুভি_জেনার সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
movie_id টেনসর স্ট্রিং
মুভি_টাইটেল টেনসর স্ট্রিং

movielens/20m-রেটিং

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে 27,278টি সিনেমা জুড়ে 20,000,263 রেটিং রয়েছে, যা 09 জানুয়ারী, 1995 এবং 31 মার্চ, 2015 এর মধ্যে 138,493 জন ব্যবহারকারী দ্বারা তৈরি করা হয়েছে৷ এই ডেটাসেটটি 17 অক্টোবর, 2016 এ তৈরি করা হয়েছিল৷

প্রতিটি ব্যবহারকারী কমপক্ষে 20টি চলচ্চিত্র রেট করেছেন। রেটিং অর্ধ-তারকা বৃদ্ধি হয়. এই ডেটাসেটে ডেমোগ্রাফিক ডেটা নেই।

  • ডাউনলোডের আকার : 189.50 MiB

  • ডেটাসেটের আকার : 3.10 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 20,000,263
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মুভি_জেনার সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
movie_id টেনসর স্ট্রিং
মুভি_টাইটেল টেনসর স্ট্রিং
টাইমস্ট্যাম্প টেনসর int64
ব্যবহারকারী আইডি টেনসর স্ট্রিং
ব্যবহারকারী রেটিং টেনসর float32

movielens/20m-চলচ্চিত্র

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে 20m ডেটাসেটে রেট করা 27,278টি চলচ্চিত্রের ডেটা রয়েছে

  • ডাউনলোডের আকার : 189.50 MiB

  • ডেটাসেটের আকার : 2.55 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 27,278
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মুভি_জেনার সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
movie_id টেনসর স্ট্রিং
মুভি_টাইটেল টেনসর স্ট্রিং