टीएफडीएस अब क्रोइसैन 🥐 प्रारूप का समर्थन करता है! अधिक जानने के लिए दस्तावेज़ पढ़ें.

इस पेज का अनुवाद Cloud Translation API से किया गया है.

चलचित्र_लेंस

विवरण :

इस डेटासेट में MovieLens वेबसाइट, मूवी अनुशंसा सेवा से मूवी रेटिंग का एक सेट होता है। यह डेटासेट मिनेसोटा विश्वविद्यालय के एक शोध समूह GroupLens द्वारा एकत्र और बनाए रखा गया था। इसमें 5 संस्करण शामिल हैं: "25m", "नवीनतम-छोटा", "100k", "1m", "20m"। सभी डेटासेट में, मूवी डेटा और रेटिंग डेटा "मूवीआईड" पर जुड़ जाते हैं। 25m डेटासेट, नवीनतम-छोटे डेटासेट और 20m डेटासेट में केवल मूवी डेटा और रेटिंग डेटा होता है। 1m डेटासेट और 100k डेटासेट में मूवी और रेटिंग डेटा के अलावा जनसांख्यिकीय डेटा होता है।

"25m": यह MovieLens डेटासेट का नवीनतम स्थिर संस्करण है। यह अनुसंधान उद्देश्यों के लिए अनुशंसित है।
"नवीनतम-छोटा": यह MovieLens डेटासेट के नवीनतम संस्करण का एक छोटा उपसमुच्चय है। इसे GroupLens द्वारा समय के साथ बदला और अपडेट किया जाता है।
"100k": यह MovieLens डेटासेट का सबसे पुराना संस्करण है। यह जनसांख्यिकीय डेटा वाला एक छोटा डेटासेट है।
"1m": यह सबसे बड़ा MovieLens डेटासेट है जिसमें जनसांख्यिकीय डेटा शामिल है।
"20m": यह 1m डेटासेट के साथ शैक्षणिक पत्रों में सबसे अधिक उपयोग किए जाने वाले MovieLens डेटासेट में से एक है।

प्रत्येक संस्करण के लिए, उपयोगकर्ता "-मूवीज़" प्रत्यय (जैसे "25 मिलियन-मूवीज़") जोड़कर केवल मूवी डेटा देख सकते हैं या मूवी डेटा (और 1m और 100k डेटासेट में उपयोगकर्ता डेटा) जोड़कर रेटिंग डेटा जोड़ सकते हैं। "-रेटिंग" प्रत्यय (उदाहरण के लिए "25m-रेटिंग")।

नीचे दी गई विशेषताएं "-रेटिंग" प्रत्यय के साथ सभी संस्करणों में शामिल हैं।

"movie_id": रेटेड मूवी का एक अद्वितीय पहचानकर्ता
"movie_title": रेटिंग वाली फ़िल्म का शीर्षक कोष्ठक में रिलीज़ वर्ष के साथ
"movie_genres": शैलियों का एक क्रम जिससे रेटेड फिल्म संबंधित है
"user_id": रेटिंग करने वाले उपयोगकर्ता का विशिष्ट पहचानकर्ता
"उपयोगकर्ता_रेटिंग": पांच सितारा पैमाने पर रेटिंग का स्कोर
"टाइमस्टैम्प": रेटिंग का टाइमस्टैम्प, 1 जनवरी, 1970 के मध्यरात्रि समन्वित यूनिवर्सल टाइम (UTC) के बाद से सेकंड में प्रदर्शित

इसके अलावा "100k-रेटिंग" और "1m-रेटिंग" संस्करणों में निम्नलिखित जनसांख्यिकीय विशेषताएं शामिल हैं।

"user_gender": रेटिंग करने वाले उपयोगकर्ता का लिंग; एक सच्चा मूल्य पुरुष से मेल खाता है
"bucketized_user_age": रेटिंग करने वाले उपयोगकर्ता के बकेटाइज़्ड आयु मान, मान और संबंधित श्रेणियां हैं:
- 1: "अंडर 18"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
"user_occupation_label": उस उपयोगकर्ता का व्यवसाय जिसने रेटिंग को एक पूर्णांक-एन्कोडेड लेबल द्वारा प्रस्तुत किया; विभिन्न संस्करणों में सुसंगत होने के लिए लेबल पूर्व-संसाधित होते हैं
"user_occupation_text": मूल स्ट्रिंग में रेटिंग करने वाले उपयोगकर्ता का व्यवसाय; अलग-अलग संस्करणों में कच्चे टेक्स्ट लेबल के अलग-अलग सेट हो सकते हैं
"user_zip_code": रेटिंग करने वाले उपयोगकर्ता का ज़िप कोड

इसके अलावा, "100k-रेटिंग" डेटासेट में एक विशेषता "raw_user_age" भी होगी, जो रेटिंग करने वाले उपयोगकर्ताओं की सटीक आयु है

"-मूवीज़" प्रत्यय वाले डेटासेट में केवल "मूवी_आईडी", "मूवी_टाइटल" और "मूवी_जेनरेस" विशेषताएं होती हैं।

होमपेज : https://grouplens.org/datasets/movielens/
स्रोत कोड : tfds.structured.MovieLens
संस्करण :
- 0.1.1 (डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

Movie_lens/25m-रेटिंग (डिफ़ॉल्ट कॉन्फ़िगरेशन)

कॉन्फ़िगरेशन विवरण : इस डेटासेट में 62,423 फिल्मों में 25,000,095 रेटिंग शामिल हैं, जो 162,541 उपयोगकर्ताओं द्वारा 09 जनवरी, 1995 और 21 नवंबर के बीच बनाई गई हैं,
यह डेटासेट MovieLens डेटासेट का नवीनतम स्थिर संस्करण है, जिसे 21 नवंबर, 2019 को जनरेट किया गया था।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग आधे-सितारा वृद्धि में हैं। इस डेटासेट में जनसांख्यिकीय डेटा शामिल नहीं है।

डाउनलोड का आकार : 249.84 MiB
डेटासेट का आकार : 3.89 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'train'`	25,000,095

फ़ीचर संरचना :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
Movie_genres	अनुक्रम (कक्षा लेबल)	(कोई भी नहीं,)	int64
Movie_id	टेन्सर		डोरी
मूवी का शीर्षक	टेन्सर		डोरी
TIMESTAMP	टेन्सर		int64
यूज़र आईडी	टेन्सर		डोरी
प्रयोक्ता श्रेणी	टेन्सर		फ्लोट32

उदाहरण ( tfds.as_dataframe ):

Movie_lens/25m-movies

कॉन्फ़िगरेशन विवरण : इस डेटासेट में 25m डेटासेट में रेट की गई 62,423 मूवी का डेटा है।
डाउनलोड का आकार : 249.84 MiB
डेटासेट का आकार : 5.71 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'train'`	62,423

फ़ीचर संरचना :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
Movie_genres	अनुक्रम (कक्षा लेबल)	(कोई भी नहीं,)	int64
Movie_id	टेन्सर		डोरी
मूवी का शीर्षक	टेन्सर		डोरी

उदाहरण ( tfds.as_dataframe ):

Movie_lens/latest-small- Ratings

Config विवरण : इस डेटासेट में 9,742 फिल्मों में 100,836 रेटिंग शामिल हैं, जो 29 मार्च, 1996 और 24 सितंबर, 2018 के बीच 610 उपयोगकर्ताओं द्वारा बनाई गई हैं। यह डेटासेट 26 सितंबर, 2018 को उत्पन्न हुआ है और MovieLens डेटासेट के पूर्ण नवीनतम संस्करण का एक सबसेट है। . यह डेटासेट समय के साथ बदला और अपडेट किया जाता है।

डाउनलोड आकार : 955.28 KiB
डेटासेट का आकार : 15.82 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'train'`	100,836

फ़ीचर संरचना :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
Movie_genres	अनुक्रम (कक्षा लेबल)	(कोई भी नहीं,)	int64
Movie_id	टेन्सर		डोरी
मूवी का शीर्षक	टेन्सर		डोरी
TIMESTAMP	टेन्सर		int64
यूज़र आईडी	टेन्सर		डोरी
प्रयोक्ता श्रेणी	टेन्सर		फ्लोट32

उदाहरण ( tfds.as_dataframe ):

Movie_lens/latest-small-movies

कॉन्फ़िगरेशन विवरण : इस डेटासेट में नवीनतम-छोटे डेटासेट में रेट की गई 9,742 फिल्मों का डेटा है।
डाउनलोड आकार : 955.28 KiB
डेटासेट का आकार : 910.64 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'train'`	9,742

फ़ीचर संरचना :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
Movie_genres	अनुक्रम (कक्षा लेबल)	(कोई भी नहीं,)	int64
Movie_id	टेन्सर		डोरी
मूवी का शीर्षक	टेन्सर		डोरी

उदाहरण ( tfds.as_dataframe ):

Movie_lens/100k- Ratings

विन्यास विवरण : इस डेटासेट में 1,682 फिल्मों पर 943 उपयोगकर्ताओं से 100,000 रेटिंग शामिल हैं। यह डेटासेट MovieLens डेटासेट का सबसे पुराना संस्करण है।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग पूर्ण-स्टार वृद्धि में हैं। इस डेटासेट में फिल्मों और रेटिंग के डेटा के अलावा उपयोगकर्ताओं का जनसांख्यिकीय डेटा होता है।

डाउनलोड आकार : 4.70 MiB
डेटासेट का आकार : 32.41 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'train'`	100,000

फ़ीचर संरचना :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
बकेटाइज़्ड_यूज़र_एज	टेन्सर		फ्लोट32
Movie_genres	अनुक्रम (कक्षा लेबल)	(कोई भी नहीं,)	int64
Movie_id	टेन्सर		डोरी
मूवी का शीर्षक	टेन्सर		डोरी
कच्चा_उपयोगकर्ता_आयु	टेन्सर		फ्लोट32
TIMESTAMP	टेन्सर		int64
user_gender	टेन्सर		बूल
यूज़र आईडी	टेन्सर		डोरी
user_occupation_label	क्लासलेबल		int64
user_occupation_text	टेन्सर		डोरी
प्रयोक्ता श्रेणी	टेन्सर		फ्लोट32
user_zip_code	टेन्सर		डोरी

उदाहरण ( tfds.as_dataframe ):

Movie_lens/100k-movies

कॉन्फ़िगरेशन विवरण : इस डेटासेट में 100k डेटासेट में रेट की गई 1,682 फिल्मों का डेटा है।
डाउनलोड आकार : 4.70 MiB
डेटासेट का आकार : 150.35 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'train'`	1,682

फ़ीचर संरचना :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
Movie_genres	अनुक्रम (कक्षा लेबल)	(कोई भी नहीं,)	int64
Movie_id	टेन्सर		डोरी
मूवी का शीर्षक	टेन्सर		डोरी

उदाहरण ( tfds.as_dataframe ):

Movie_lens/1m- Ratings

कॉन्फ़िगरेशन विवरण : इस डेटासेट में 6,040 MovieLens उपयोगकर्ताओं द्वारा बनाई गई लगभग 3,900 फिल्मों की 1,000,209 अनाम रेटिंग शामिल हैं, जो MovieLens में शामिल हुए
यह डेटासेट सबसे बड़ा डेटासेट है जिसमें जनसांख्यिकीय डेटा शामिल है।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग पूर्ण-स्टार वृद्धि में हैं। जनसांख्यिकीय डेटा में, आयु मानों को श्रेणियों में विभाजित किया जाता है और प्रत्येक श्रेणी के लिए न्यूनतम आयु मान का उपयोग वास्तविक मानों के बजाय डेटा में किया जाता है।

डाउनलोड आकार : 5.64 MiB
डेटासेट का आकार : 308.42 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'train'`	1,000,209

फ़ीचर संरचना :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
बकेटाइज़्ड_यूज़र_एज	टेन्सर		फ्लोट32
Movie_genres	अनुक्रम (कक्षा लेबल)	(कोई भी नहीं,)	int64
Movie_id	टेन्सर		डोरी
मूवी का शीर्षक	टेन्सर		डोरी
TIMESTAMP	टेन्सर		int64
user_gender	टेन्सर		बूल
यूज़र आईडी	टेन्सर		डोरी
user_occupation_label	क्लासलेबल		int64
user_occupation_text	टेन्सर		डोरी
प्रयोक्ता श्रेणी	टेन्सर		फ्लोट32
user_zip_code	टेन्सर		डोरी

उदाहरण ( tfds.as_dataframe ):

Movie_lens/1m-movies

कॉन्फ़िगरेशन विवरण : इस डेटासेट में 1m डेटासेट में रेट की गई लगभग 3,900 फ़िल्मों का डेटा है।
डाउनलोड आकार : 5.64 MiB
डेटासेट का आकार : 351.12 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'train'`	3,883

फ़ीचर संरचना :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
Movie_genres	अनुक्रम (कक्षा लेबल)	(कोई भी नहीं,)	int64
Movie_id	टेन्सर		डोरी
मूवी का शीर्षक	टेन्सर		डोरी

उदाहरण ( tfds.as_dataframe ):

Movie_lens/20m- Ratings

कॉन्फ़िग विवरण : इस डेटासेट में 27,278 फ़िल्मों की 20,000,263 रेटिंग शामिल हैं, जिन्हें 09 जनवरी, 1995 और 31 मार्च, 2015 के बीच 138,493 उपयोगकर्ताओं द्वारा बनाया गया था। यह डेटासेट 17 अक्टूबर, 2016 को तैयार किया गया था।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों का मूल्यांकन किया है। रेटिंग आधे-सितारा वृद्धि में हैं। इस डेटासेट में जनसांख्यिकीय डेटा नहीं है।

डाउनलोड आकार : 189.50 MiB
डेटासेट का आकार : 3.10 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'train'`	20,000,263

फ़ीचर संरचना :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
Movie_genres	अनुक्रम (कक्षा लेबल)	(कोई भी नहीं,)	int64
Movie_id	टेन्सर		डोरी
मूवी का शीर्षक	टेन्सर		डोरी
TIMESTAMP	टेन्सर		int64
यूज़र आईडी	टेन्सर		डोरी
प्रयोक्ता श्रेणी	टेन्सर		फ्लोट32

उदाहरण ( tfds.as_dataframe ):

Movie_lens/20m-movies

कॉन्फ़िगरेशन विवरण : इस डेटासेट में 20m डेटासेट में रेट की गई 27,278 फिल्मों का डेटा है
डाउनलोड आकार : 189.50 MiB
डेटासेट का आकार : 2.55 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'train'`	27,278

फ़ीचर संरचना :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
Movie_genres	अनुक्रम (कक्षा लेबल)	(कोई भी नहीं,)	int64
Movie_id	टेन्सर		डोरी
मूवी का शीर्षक	टेन्सर		डोरी

उदाहरण ( tfds.as_dataframe ):