मूवीलेंस

  • विवरण :

इस डेटासेट में MovieLens वेबसाइट, मूवी अनुशंसा सेवा से मूवी रेटिंग का एक सेट होता है। यह डेटासेट मिनेसोटा विश्वविद्यालय के एक शोध समूह GroupLens द्वारा एकत्र और बनाए रखा गया था। इसमें 5 संस्करण शामिल हैं: "25m", "नवीनतम-छोटा", "100k", "1m", "20m"। सभी डेटासेट में, मूवी डेटा और रेटिंग डेटा "मूवीआईड" पर जुड़ जाते हैं। 25m डेटासेट, नवीनतम-छोटे डेटासेट और 20m डेटासेट में केवल मूवी डेटा और रेटिंग डेटा होता है। 1m डेटासेट और 100k डेटासेट में मूवी और रेटिंग डेटा के अलावा जनसांख्यिकीय डेटा होता है।

  • "25m": यह MovieLens डेटासेट का नवीनतम स्थिर संस्करण है। यह अनुसंधान उद्देश्यों के लिए अनुशंसित है।
  • "नवीनतम-छोटा": यह MovieLens डेटासेट के नवीनतम संस्करण का एक छोटा उपसमुच्चय है। इसे GroupLens द्वारा समय के साथ बदला और अपडेट किया जाता है।
  • "100k": यह MovieLens डेटासेट का सबसे पुराना संस्करण है। यह जनसांख्यिकीय डेटा वाला एक छोटा डेटासेट है।
  • "1m": यह सबसे बड़ा MovieLens डेटासेट है जिसमें जनसांख्यिकीय डेटा शामिल है।
  • "20m": यह 1m डेटासेट के साथ शैक्षणिक पत्रों में सबसे अधिक उपयोग किए जाने वाले MovieLens डेटासेट में से एक है।

प्रत्येक संस्करण के लिए, उपयोगकर्ता "-मूवीज़" प्रत्यय (जैसे "25 मिलियन-मूवीज़") जोड़कर केवल मूवी डेटा देख सकते हैं या मूवी डेटा (और 1m और 100k डेटासेट में उपयोगकर्ता डेटा) जोड़कर रेटिंग डेटा जोड़ सकते हैं। "-रेटिंग" प्रत्यय (उदाहरण के लिए "25m-रेटिंग")।

नीचे दी गई विशेषताएं "-रेटिंग" प्रत्यय के साथ सभी संस्करणों में शामिल हैं।

  • "movie_id": रेटेड मूवी का एक अद्वितीय पहचानकर्ता
  • "movie_title": रेटिंग वाली फ़िल्म का शीर्षक कोष्ठक में रिलीज़ वर्ष के साथ
  • "movie_genres": शैलियों का एक क्रम जिससे रेटेड फिल्म संबंधित है
  • "user_id": रेटिंग करने वाले उपयोगकर्ता का विशिष्ट पहचानकर्ता
  • "उपयोगकर्ता_रेटिंग": पांच सितारा पैमाने पर रेटिंग का स्कोर
  • "टाइमस्टैम्प": रेटिंग का टाइमस्टैम्प, 1 जनवरी, 1970 के मध्यरात्रि समन्वित यूनिवर्सल टाइम (UTC) के बाद से सेकंड में प्रदर्शित

इसके अलावा "100k-रेटिंग" और "1m-रेटिंग" संस्करणों में निम्नलिखित जनसांख्यिकीय विशेषताएं शामिल हैं।

  • "user_gender": रेटिंग करने वाले उपयोगकर्ता का लिंग; एक सच्चा मूल्य पुरुष से मेल खाता है
  • "bucketized_user_age": रेटिंग करने वाले उपयोगकर्ता के बकेटाइज़्ड आयु मान, मान और संबंधित श्रेणियां हैं:
    • 1: "अंडर 18"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": उस उपयोगकर्ता का व्यवसाय जिसने रेटिंग को एक पूर्णांक-एन्कोडेड लेबल द्वारा प्रस्तुत किया; विभिन्न संस्करणों में सुसंगत होने के लिए लेबल पूर्व-संसाधित होते हैं
  • "user_occupation_text": मूल स्ट्रिंग में रेटिंग करने वाले उपयोगकर्ता का व्यवसाय; अलग-अलग संस्करणों में कच्चे टेक्स्ट लेबल के अलग-अलग सेट हो सकते हैं
  • "user_zip_code": रेटिंग करने वाले उपयोगकर्ता का ज़िप कोड

इसके अलावा, "100k-रेटिंग" डेटासेट में एक विशेषता "raw_user_age" भी होगी, जो रेटिंग करने वाले उपयोगकर्ताओं की सटीक आयु है

"-मूवीज़" प्रत्यय वाले डेटासेट में केवल "मूवी_आईडी", "मूवी_टाइटल" और "मूवी_जेनरेस" विशेषताएं होती हैं।

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

Movielens/25m-रेटिंग (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िगरेशन विवरण : इस डेटासेट में 62,423 फिल्मों में 25,000,095 रेटिंग शामिल हैं, जो 162,541 उपयोगकर्ताओं द्वारा 09 जनवरी, 1995 और 21 नवंबर के बीच बनाई गई हैं,
  • यह डेटासेट MovieLens डेटासेट का नवीनतम स्थिर संस्करण है, जिसे 21 नवंबर, 2019 को जनरेट किया गया था।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग आधे-सितारा वृद्धि में हैं। इस डेटासेट में जनसांख्यिकीय डेटा शामिल नहीं है।

  • डाउनलोड का आकार : 249.84 MiB

  • डेटासेट का आकार : 3.89 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'train' 25,000,095
  • फ़ीचर संरचना :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
Movie_genres अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
Movie_id टेन्सर डोरी
मूवी का शीर्षक टेन्सर डोरी
TIMESTAMP टेन्सर int64
यूज़र आईडी टेन्सर डोरी
प्रयोक्ता श्रेणी टेन्सर फ्लोट32

MovieLens/25m-movies

  • कॉन्फ़िगरेशन विवरण : इस डेटासेट में 25m डेटासेट में रेट की गई 62,423 मूवी का डेटा है।

  • डाउनलोड का आकार : 249.84 MiB

  • डेटासेट का आकार : 5.71 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 62,423
  • फ़ीचर संरचना :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
Movie_genres अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
Movie_id टेन्सर डोरी
मूवी का शीर्षक टेन्सर डोरी

Movielens/नवीनतम-छोटी-रेटिंग

  • Config विवरण : इस डेटासेट में 9,742 फिल्मों में 100,836 रेटिंग शामिल हैं, जो 29 मार्च, 1996 और 24 सितंबर, 2018 के बीच 610 उपयोगकर्ताओं द्वारा बनाई गई हैं। यह डेटासेट 26 सितंबर, 2018 को उत्पन्न हुआ है और MovieLens डेटासेट के पूर्ण नवीनतम संस्करण का एक सबसेट है। . यह डेटासेट समय के साथ बदला और अपडेट किया जाता है।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग आधे-सितारा वृद्धि में हैं। इस डेटासेट में जनसांख्यिकीय डेटा शामिल नहीं है।

  • डाउनलोड आकार : 955.28 KiB

  • डेटासेट का आकार : 15.82 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 100,836
  • फ़ीचर संरचना :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
Movie_genres अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
Movie_id टेन्सर डोरी
मूवी का शीर्षक टेन्सर डोरी
TIMESTAMP टेन्सर int64
यूज़र आईडी टेन्सर डोरी
प्रयोक्ता श्रेणी टेन्सर फ्लोट32

मूवीलेंस/नवीनतम-छोटी-फिल्में

  • कॉन्फ़िगरेशन विवरण : इस डेटासेट में नवीनतम-छोटे डेटासेट में रेट की गई 9,742 फिल्मों का डेटा है।

  • डाउनलोड आकार : 955.28 KiB

  • डेटासेट का आकार : 910.64 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 9,742
  • फ़ीचर संरचना :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
Movie_genres अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
Movie_id टेन्सर डोरी
मूवी का शीर्षक टेन्सर डोरी

मूवीलेंस/100k-रेटिंग्स

  • विन्यास विवरण : इस डेटासेट में 1,682 फिल्मों पर 943 उपयोगकर्ताओं से 100,000 रेटिंग शामिल हैं। यह डेटासेट MovieLens डेटासेट का सबसे पुराना संस्करण है।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग पूर्ण-स्टार वृद्धि में हैं। इस डेटासेट में फिल्मों और रेटिंग के डेटा के अलावा उपयोगकर्ताओं का जनसांख्यिकीय डेटा होता है।

  • डाउनलोड आकार : 4.70 MiB

  • डेटासेट का आकार : 32.41 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 100,000
  • फ़ीचर संरचना :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
बकेटाइज़्ड_यूज़र_एज टेन्सर फ्लोट32
Movie_genres अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
Movie_id टेन्सर डोरी
मूवी का शीर्षक टेन्सर डोरी
कच्चा_उपयोगकर्ता_आयु टेन्सर फ्लोट32
TIMESTAMP टेन्सर int64
user_gender टेन्सर बूल
यूज़र आईडी टेन्सर डोरी
user_occupation_label क्लासलेबल int64
user_occupation_text टेन्सर डोरी
प्रयोक्ता श्रेणी टेन्सर फ्लोट32
user_zip_code टेन्सर डोरी

MovieLens/100k-movies

  • कॉन्फ़िगरेशन विवरण : इस डेटासेट में 100k डेटासेट में रेट की गई 1,682 फिल्मों का डेटा है।

  • डाउनलोड आकार : 4.70 MiB

  • डेटासेट का आकार : 150.35 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 1,682
  • फ़ीचर संरचना :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
Movie_genres अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
Movie_id टेन्सर डोरी
मूवी का शीर्षक टेन्सर डोरी

मूवीलेंस/1m-रेटिंग

  • कॉन्फ़िगरेशन विवरण : इस डेटासेट में 6,040 MovieLens उपयोगकर्ताओं द्वारा बनाई गई लगभग 3,900 फिल्मों की 1,000,209 अनाम रेटिंग शामिल हैं, जो MovieLens में शामिल हुए
  • यह डेटासेट सबसे बड़ा डेटासेट है जिसमें जनसांख्यिकीय डेटा शामिल है।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग पूर्ण-स्टार वृद्धि में हैं। जनसांख्यिकीय डेटा में, आयु मानों को श्रेणियों में विभाजित किया जाता है और प्रत्येक श्रेणी के लिए न्यूनतम आयु मान का उपयोग वास्तविक मानों के बजाय डेटा में किया जाता है।

  • डाउनलोड आकार : 5.64 MiB

  • डेटासेट का आकार : 308.42 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'train' 1,000,209
  • फ़ीचर संरचना :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
बकेटाइज़्ड_यूज़र_एज टेन्सर फ्लोट32
Movie_genres अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
Movie_id टेन्सर डोरी
मूवी का शीर्षक टेन्सर डोरी
TIMESTAMP टेन्सर int64
user_gender टेन्सर बूल
यूज़र आईडी टेन्सर डोरी
user_occupation_label क्लासलेबल int64
user_occupation_text टेन्सर डोरी
प्रयोक्ता श्रेणी टेन्सर फ्लोट32
user_zip_code टेन्सर डोरी

Movielens/1m-movies

  • कॉन्फ़िगरेशन विवरण : इस डेटासेट में 1m डेटासेट में रेट की गई लगभग 3,900 फ़िल्मों का डेटा है।

  • डाउनलोड आकार : 5.64 MiB

  • डेटासेट का आकार : 351.12 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 3,883
  • फ़ीचर संरचना :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
Movie_genres अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
Movie_id टेन्सर डोरी
मूवी का शीर्षक टेन्सर डोरी

मूवीलेंस/20मी-रेटिंग

  • कॉन्फ़िग विवरण : इस डेटासेट में 27,278 फ़िल्मों की 20,000,263 रेटिंग शामिल हैं, जिन्हें 09 जनवरी, 1995 और 31 मार्च, 2015 के बीच 138,493 उपयोगकर्ताओं द्वारा बनाया गया था। यह डेटासेट 17 अक्टूबर, 2016 को तैयार किया गया था।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग आधे-सितारा वृद्धि में हैं। इस डेटासेट में जनसांख्यिकीय डेटा नहीं है।

  • डाउनलोड आकार : 189.50 MiB

  • डेटासेट का आकार : 3.10 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'train' 20,000,263
  • फ़ीचर संरचना :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
Movie_genres अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
Movie_id टेन्सर डोरी
मूवी का शीर्षक टेन्सर डोरी
TIMESTAMP टेन्सर int64
यूज़र आईडी टेन्सर डोरी
प्रयोक्ता श्रेणी टेन्सर फ्लोट32

मूवीलेंस/20मी-मूवीज़

  • कॉन्फ़िगरेशन विवरण : इस डेटासेट में 20m डेटासेट में रेट की गई 27,278 फिल्मों का डेटा है

  • डाउनलोड आकार : 189.50 MiB

  • डेटासेट का आकार : 2.55 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 27,278
  • फ़ीचर संरचना :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
Movie_genres अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
Movie_id टेन्सर डोरी
मूवी का शीर्षक टेन्सर डोरी