- विवरण :
इस डेटासेट में MovieLens वेबसाइट, मूवी अनुशंसा सेवा से मूवी रेटिंग का एक सेट होता है। यह डेटासेट मिनेसोटा विश्वविद्यालय के एक शोध समूह GroupLens द्वारा एकत्र और बनाए रखा गया था। इसमें 5 संस्करण शामिल हैं: "25m", "नवीनतम-छोटा", "100k", "1m", "20m"। सभी डेटासेट में, मूवी डेटा और रेटिंग डेटा "मूवीआईड" पर जुड़ जाते हैं। 25m डेटासेट, नवीनतम-छोटे डेटासेट और 20m डेटासेट में केवल मूवी डेटा और रेटिंग डेटा होता है। 1m डेटासेट और 100k डेटासेट में मूवी और रेटिंग डेटा के अलावा जनसांख्यिकीय डेटा होता है।
- "25m": यह MovieLens डेटासेट का नवीनतम स्थिर संस्करण है। यह अनुसंधान उद्देश्यों के लिए अनुशंसित है।
- "नवीनतम-छोटा": यह MovieLens डेटासेट के नवीनतम संस्करण का एक छोटा उपसमुच्चय है। इसे GroupLens द्वारा समय के साथ बदला और अपडेट किया जाता है।
- "100k": यह MovieLens डेटासेट का सबसे पुराना संस्करण है। यह जनसांख्यिकीय डेटा वाला एक छोटा डेटासेट है।
- "1m": यह सबसे बड़ा MovieLens डेटासेट है जिसमें जनसांख्यिकीय डेटा शामिल है।
- "20m": यह 1m डेटासेट के साथ शैक्षणिक पत्रों में सबसे अधिक उपयोग किए जाने वाले MovieLens डेटासेट में से एक है।
प्रत्येक संस्करण के लिए, उपयोगकर्ता "-मूवीज़" प्रत्यय (जैसे "25 मिलियन-मूवीज़") जोड़कर केवल मूवी डेटा देख सकते हैं या मूवी डेटा (और 1m और 100k डेटासेट में उपयोगकर्ता डेटा) जोड़कर रेटिंग डेटा जोड़ सकते हैं। "-रेटिंग" प्रत्यय (उदाहरण के लिए "25m-रेटिंग")।
नीचे दी गई विशेषताएं "-रेटिंग" प्रत्यय के साथ सभी संस्करणों में शामिल हैं।
- "movie_id": रेटेड मूवी का एक अद्वितीय पहचानकर्ता
- "movie_title": रेटिंग वाली फ़िल्म का शीर्षक कोष्ठक में रिलीज़ वर्ष के साथ
- "movie_genres": शैलियों का एक क्रम जिससे रेटेड फिल्म संबंधित है
- "user_id": रेटिंग करने वाले उपयोगकर्ता का विशिष्ट पहचानकर्ता
- "उपयोगकर्ता_रेटिंग": पांच सितारा पैमाने पर रेटिंग का स्कोर
- "टाइमस्टैम्प": रेटिंग का टाइमस्टैम्प, 1 जनवरी, 1970 के मध्यरात्रि समन्वित यूनिवर्सल टाइम (UTC) के बाद से सेकंड में प्रदर्शित
इसके अलावा "100k-रेटिंग" और "1m-रेटिंग" संस्करणों में निम्नलिखित जनसांख्यिकीय विशेषताएं शामिल हैं।
- "user_gender": रेटिंग करने वाले उपयोगकर्ता का लिंग; एक सच्चा मूल्य पुरुष से मेल खाता है
- "bucketized_user_age": रेटिंग करने वाले उपयोगकर्ता के बकेटाइज़्ड आयु मान, मान और संबंधित श्रेणियां हैं:
- 1: "अंडर 18"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
- "user_occupation_label": उस उपयोगकर्ता का व्यवसाय जिसने रेटिंग को एक पूर्णांक-एन्कोडेड लेबल द्वारा प्रस्तुत किया; विभिन्न संस्करणों में सुसंगत होने के लिए लेबल पूर्व-संसाधित होते हैं
- "user_occupation_text": मूल स्ट्रिंग में रेटिंग करने वाले उपयोगकर्ता का व्यवसाय; अलग-अलग संस्करणों में कच्चे टेक्स्ट लेबल के अलग-अलग सेट हो सकते हैं
- "user_zip_code": रेटिंग करने वाले उपयोगकर्ता का ज़िप कोड
इसके अलावा, "100k-रेटिंग" डेटासेट में एक विशेषता "raw_user_age" भी होगी, जो रेटिंग करने वाले उपयोगकर्ताओं की सटीक आयु है
"-मूवीज़" प्रत्यय वाले डेटासेट में केवल "मूवी_आईडी", "मूवी_टाइटल" और "मूवी_जेनरेस" विशेषताएं होती हैं।
स्रोत कोड :
tfds.structured.Movielens
संस्करण :
-
0.1.1
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
Movielens/25m-रेटिंग (डिफ़ॉल्ट कॉन्फ़िगरेशन)
- कॉन्फ़िगरेशन विवरण : इस डेटासेट में 62,423 फिल्मों में 25,000,095 रेटिंग शामिल हैं, जो 162,541 उपयोगकर्ताओं द्वारा 09 जनवरी, 1995 और 21 नवंबर के बीच बनाई गई हैं,
- यह डेटासेट MovieLens डेटासेट का नवीनतम स्थिर संस्करण है, जिसे 21 नवंबर, 2019 को जनरेट किया गया था।
प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग आधे-सितारा वृद्धि में हैं। इस डेटासेट में जनसांख्यिकीय डेटा शामिल नहीं है।
डाउनलोड का आकार :
249.84 MiB
डेटासेट का आकार :
3.89 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 25,000,095 |
- फ़ीचर संरचना :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
Movie_genres | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
Movie_id | टेन्सर | डोरी | ||
मूवी का शीर्षक | टेन्सर | डोरी | ||
TIMESTAMP | टेन्सर | int64 | ||
यूज़र आईडी | टेन्सर | डोरी | ||
प्रयोक्ता श्रेणी | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
MovieLens/25m-movies
कॉन्फ़िगरेशन विवरण : इस डेटासेट में 25m डेटासेट में रेट की गई 62,423 मूवी का डेटा है।
डाउनलोड का आकार :
249.84 MiB
डेटासेट का आकार :
5.71 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 62,423 |
- फ़ीचर संरचना :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
Movie_genres | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
Movie_id | टेन्सर | डोरी | ||
मूवी का शीर्षक | टेन्सर | डोरी |
- उदाहरण ( tfds.as_dataframe ):
Movielens/नवीनतम-छोटी-रेटिंग
- Config विवरण : इस डेटासेट में 9,742 फिल्मों में 100,836 रेटिंग शामिल हैं, जो 29 मार्च, 1996 और 24 सितंबर, 2018 के बीच 610 उपयोगकर्ताओं द्वारा बनाई गई हैं। यह डेटासेट 26 सितंबर, 2018 को उत्पन्न हुआ है और MovieLens डेटासेट के पूर्ण नवीनतम संस्करण का एक सबसेट है। . यह डेटासेट समय के साथ बदला और अपडेट किया जाता है।
प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग आधे-सितारा वृद्धि में हैं। इस डेटासेट में जनसांख्यिकीय डेटा शामिल नहीं है।
डाउनलोड आकार :
955.28 KiB
डेटासेट का आकार :
15.82 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 100,836 |
- फ़ीचर संरचना :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
Movie_genres | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
Movie_id | टेन्सर | डोरी | ||
मूवी का शीर्षक | टेन्सर | डोरी | ||
TIMESTAMP | टेन्सर | int64 | ||
यूज़र आईडी | टेन्सर | डोरी | ||
प्रयोक्ता श्रेणी | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
मूवीलेंस/नवीनतम-छोटी-फिल्में
कॉन्फ़िगरेशन विवरण : इस डेटासेट में नवीनतम-छोटे डेटासेट में रेट की गई 9,742 फिल्मों का डेटा है।
डाउनलोड आकार :
955.28 KiB
डेटासेट का आकार :
910.64 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 9,742 |
- फ़ीचर संरचना :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
Movie_genres | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
Movie_id | टेन्सर | डोरी | ||
मूवी का शीर्षक | टेन्सर | डोरी |
- उदाहरण ( tfds.as_dataframe ):
मूवीलेंस/100k-रेटिंग्स
- विन्यास विवरण : इस डेटासेट में 1,682 फिल्मों पर 943 उपयोगकर्ताओं से 100,000 रेटिंग शामिल हैं। यह डेटासेट MovieLens डेटासेट का सबसे पुराना संस्करण है।
प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग पूर्ण-स्टार वृद्धि में हैं। इस डेटासेट में फिल्मों और रेटिंग के डेटा के अलावा उपयोगकर्ताओं का जनसांख्यिकीय डेटा होता है।
डाउनलोड आकार :
4.70 MiB
डेटासेट का आकार :
32.41 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 100,000 |
- फ़ीचर संरचना :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
बकेटाइज़्ड_यूज़र_एज | टेन्सर | फ्लोट32 | ||
Movie_genres | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
Movie_id | टेन्सर | डोरी | ||
मूवी का शीर्षक | टेन्सर | डोरी | ||
कच्चा_उपयोगकर्ता_आयु | टेन्सर | फ्लोट32 | ||
TIMESTAMP | टेन्सर | int64 | ||
user_gender | टेन्सर | बूल | ||
यूज़र आईडी | टेन्सर | डोरी | ||
user_occupation_label | क्लासलेबल | int64 | ||
user_occupation_text | टेन्सर | डोरी | ||
प्रयोक्ता श्रेणी | टेन्सर | फ्लोट32 | ||
user_zip_code | टेन्सर | डोरी |
- उदाहरण ( tfds.as_dataframe ):
MovieLens/100k-movies
कॉन्फ़िगरेशन विवरण : इस डेटासेट में 100k डेटासेट में रेट की गई 1,682 फिल्मों का डेटा है।
डाउनलोड आकार :
4.70 MiB
डेटासेट का आकार :
150.35 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,682 |
- फ़ीचर संरचना :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
Movie_genres | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
Movie_id | टेन्सर | डोरी | ||
मूवी का शीर्षक | टेन्सर | डोरी |
- उदाहरण ( tfds.as_dataframe ):
मूवीलेंस/1m-रेटिंग
- कॉन्फ़िगरेशन विवरण : इस डेटासेट में 6,040 MovieLens उपयोगकर्ताओं द्वारा बनाई गई लगभग 3,900 फिल्मों की 1,000,209 अनाम रेटिंग शामिल हैं, जो MovieLens में शामिल हुए
- यह डेटासेट सबसे बड़ा डेटासेट है जिसमें जनसांख्यिकीय डेटा शामिल है।
प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग पूर्ण-स्टार वृद्धि में हैं। जनसांख्यिकीय डेटा में, आयु मानों को श्रेणियों में विभाजित किया जाता है और प्रत्येक श्रेणी के लिए न्यूनतम आयु मान का उपयोग वास्तविक मानों के बजाय डेटा में किया जाता है।
डाउनलोड आकार :
5.64 MiB
डेटासेट का आकार :
308.42 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000,209 |
- फ़ीचर संरचना :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
बकेटाइज़्ड_यूज़र_एज | टेन्सर | फ्लोट32 | ||
Movie_genres | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
Movie_id | टेन्सर | डोरी | ||
मूवी का शीर्षक | टेन्सर | डोरी | ||
TIMESTAMP | टेन्सर | int64 | ||
user_gender | टेन्सर | बूल | ||
यूज़र आईडी | टेन्सर | डोरी | ||
user_occupation_label | क्लासलेबल | int64 | ||
user_occupation_text | टेन्सर | डोरी | ||
प्रयोक्ता श्रेणी | टेन्सर | फ्लोट32 | ||
user_zip_code | टेन्सर | डोरी |
- उदाहरण ( tfds.as_dataframe ):
Movielens/1m-movies
कॉन्फ़िगरेशन विवरण : इस डेटासेट में 1m डेटासेट में रेट की गई लगभग 3,900 फ़िल्मों का डेटा है।
डाउनलोड आकार :
5.64 MiB
डेटासेट का आकार :
351.12 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 3,883 |
- फ़ीचर संरचना :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
Movie_genres | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
Movie_id | टेन्सर | डोरी | ||
मूवी का शीर्षक | टेन्सर | डोरी |
- उदाहरण ( tfds.as_dataframe ):
मूवीलेंस/20मी-रेटिंग
- कॉन्फ़िग विवरण : इस डेटासेट में 27,278 फ़िल्मों की 20,000,263 रेटिंग शामिल हैं, जिन्हें 09 जनवरी, 1995 और 31 मार्च, 2015 के बीच 138,493 उपयोगकर्ताओं द्वारा बनाया गया था। यह डेटासेट 17 अक्टूबर, 2016 को तैयार किया गया था।
प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग आधे-सितारा वृद्धि में हैं। इस डेटासेट में जनसांख्यिकीय डेटा नहीं है।
डाउनलोड आकार :
189.50 MiB
डेटासेट का आकार :
3.10 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 20,000,263 |
- फ़ीचर संरचना :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
Movie_genres | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
Movie_id | टेन्सर | डोरी | ||
मूवी का शीर्षक | टेन्सर | डोरी | ||
TIMESTAMP | टेन्सर | int64 | ||
यूज़र आईडी | टेन्सर | डोरी | ||
प्रयोक्ता श्रेणी | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
मूवीलेंस/20मी-मूवीज़
कॉन्फ़िगरेशन विवरण : इस डेटासेट में 20m डेटासेट में रेट की गई 27,278 फिल्मों का डेटा है
डाउनलोड आकार :
189.50 MiB
डेटासेट का आकार :
2.55 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 27,278 |
- फ़ीचर संरचना :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
Movie_genres | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
Movie_id | टेन्सर | डोरी | ||
मूवी का शीर्षक | टेन्सर | डोरी |
- उदाहरण ( tfds.as_dataframe ):