- Descripción :
Este conjunto de datos contiene un conjunto de clasificaciones de películas del sitio web MovieLens, un servicio de recomendación de películas. Este conjunto de datos fue recopilado y mantenido por GroupLens , un grupo de investigación de la Universidad de Minnesota. Hay 5 versiones incluidas: "25m", "latest-small", "100k", "1m", "20m". En todos los conjuntos de datos, los datos de las películas y los datos de clasificación se unen en "movieId". El conjunto de datos de 25 m, el conjunto de datos más reciente y pequeño y el conjunto de datos de 20 m contienen solo datos de películas y datos de clasificación. El conjunto de datos de 1m y el conjunto de datos de 100k contienen datos demográficos además de datos de películas y calificaciones.
- "25m": esta es la última versión estable del conjunto de datos de MovieLens. Se recomienda para fines de investigación.
- "latest-small": este es un pequeño subconjunto de la última versión del conjunto de datos de MovieLens. GroupLens lo cambia y lo actualiza con el tiempo.
- "100k": esta es la versión más antigua de los conjuntos de datos de MovieLens. Es un pequeño conjunto de datos con datos demográficos.
- "1m": este es el conjunto de datos de MovieLens más grande que contiene datos demográficos.
- "20m": este es uno de los conjuntos de datos de MovieLens más utilizados en documentos académicos junto con el conjunto de datos de 1m.
Para cada versión, los usuarios pueden ver solo los datos de las películas agregando el sufijo "-películas" (p. ej., "películas de 25 m") o los datos de clasificación combinados con los datos de las películas (y los datos de los usuarios en los conjuntos de datos de 1 m y 100 000) agregando el sufijo "-ratings" (por ejemplo, "25m-ratings").
Las siguientes características se incluyen en todas las versiones con el sufijo "-ratings".
- "movie_id": un identificador único de la película calificada
- "movie_title": el título de la película calificada con el año de estreno entre paréntesis
- "movie_genres": una secuencia de géneros a los que pertenece la película calificada
- "user_id": un identificador único del usuario que hizo la calificación
- "user_rating": la puntuación de la calificación en una escala de cinco estrellas
- "marca de tiempo": la marca de tiempo de las calificaciones, representada en segundos desde la medianoche del Tiempo Universal Coordinado (UTC) del 1 de enero de 1970
Las versiones "100k-ratings" y "1m-ratings" además incluyen las siguientes características demográficas.
- "user_gender": género del usuario que hizo la calificación; un valor verdadero corresponde a masculino
- "bucketized_user_age": valores de edad en cubos del usuario que hizo la calificación, los valores y los rangos correspondientes son:
- 1: "Menores de 18"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
- "user_occupation_label": la ocupación del usuario que realizó la calificación representada por una etiqueta codificada en números enteros; las etiquetas se procesan previamente para que sean consistentes en diferentes versiones
- "user_occupation_text": la ocupación del usuario que hizo la calificación en la cadena original; diferentes versiones pueden tener diferentes conjuntos de etiquetas de texto sin procesar
- "user_zip_code": el código postal del usuario que hizo la calificación
Además, el conjunto de datos "100k-ratings" también tendría una función "raw_user_age", que es la edad exacta de los usuarios que hicieron la calificación.
Los conjuntos de datos con el sufijo "-movies" contienen solo las funciones "movie_id", "movie_title" y "movie_genres".
Página de inicio: https://grouplens.org/datasets/movielens/
Código fuente :
tfds.structured.MovieLens
Versiones :
-
0.1.1
(predeterminado): Sin notas de la versión.
-
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movie_lens/25m-ratings (configuración predeterminada)
- Descripción de la configuración : este conjunto de datos contiene 25 000 095 calificaciones en 62 423 películas, creadas por 162 541 usuarios entre el 9 de enero de 1995 y el 21 de noviembre de
- Este conjunto de datos es la última versión estable del conjunto de datos de MovieLens, generado el 21 de noviembre de 2019.
Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de media estrella. Este conjunto de datos no incluye datos demográficos.
Tamaño de la descarga :
249.84 MiB
Tamaño del conjunto de datos :
3.89 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 25,000,095 |
- Estructura de características :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
generos_de_peliculas | Secuencia (Etiqueta de clase) | (Ninguna,) | int64 | |
movie_id | Tensor | cuerda | ||
título de la película | Tensor | cuerda | ||
marca de tiempo | Tensor | int64 | ||
id_usuario | Tensor | cuerda | ||
Opiniones de los usuarios | Tensor | flotar32 |
- Ejemplos ( tfds.as_dataframe ):
movie_lens/25m-movies
Descripción de la configuración : este conjunto de datos contiene datos de 62 423 películas calificadas en el conjunto de datos de 25 m.
Tamaño de la descarga :
249.84 MiB
Tamaño del conjunto de datos :
5.71 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 62,423 |
- Estructura de características :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
generos_de_peliculas | Secuencia (Etiqueta de clase) | (Ninguna,) | int64 | |
movie_id | Tensor | cuerda | ||
título de la película | Tensor | cuerda |
- Ejemplos ( tfds.as_dataframe ):
movie_lens/últimas-pequeñas-calificaciones
- Descripción de configuración : este conjunto de datos contiene 100 836 calificaciones en 9742 películas, creadas por 610 usuarios entre el 29 de marzo de 1996 y el 24 de septiembre de 2018. Este conjunto de datos se generó el 26 de septiembre de 2018 y es un subconjunto de la última versión completa del conjunto de datos de MovieLens . Este conjunto de datos se modifica y actualiza con el tiempo.
Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de media estrella. Este conjunto de datos no incluye datos demográficos.
Tamaño de la descarga :
955.28 KiB
Tamaño del conjunto de datos :
15.82 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 100,836 |
- Estructura de características :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
generos_de_peliculas | Secuencia (Etiqueta de clase) | (Ninguna,) | int64 | |
movie_id | Tensor | cuerda | ||
título de la película | Tensor | cuerda | ||
marca de tiempo | Tensor | int64 | ||
id_usuario | Tensor | cuerda | ||
Opiniones de los usuarios | Tensor | flotar32 |
- Ejemplos ( tfds.as_dataframe ):
movie_lens/últimas-pequeñas-películas
Descripción de la configuración : este conjunto de datos contiene datos de 9742 películas clasificadas en el último conjunto de datos pequeño.
Tamaño de la descarga :
955.28 KiB
Tamaño del conjunto de datos :
910.64 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 9,742 |
- Estructura de características :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
generos_de_peliculas | Secuencia (Etiqueta de clase) | (Ninguna,) | int64 | |
movie_id | Tensor | cuerda | ||
título de la película | Tensor | cuerda |
- Ejemplos ( tfds.as_dataframe ):
movie_lens/100k-calificaciones
- Descripción de la configuración : este conjunto de datos contiene 100 000 calificaciones de 943 usuarios en 1682 películas. Este conjunto de datos es la versión más antigua del conjunto de datos de MovieLens.
Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de estrellas enteras. Este conjunto de datos contiene datos demográficos de los usuarios además de datos sobre películas y calificaciones.
Tamaño de la descarga :
4.70 MiB
Tamaño del conjunto de datos :
32.41 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 100,000 |
- Estructura de características :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
bucketized_user_age | Tensor | flotar32 | ||
generos_de_peliculas | Secuencia (Etiqueta de clase) | (Ninguna,) | int64 | |
movie_id | Tensor | cuerda | ||
título de la película | Tensor | cuerda | ||
raw_user_age | Tensor | flotar32 | ||
marca de tiempo | Tensor | int64 | ||
género_usuario | Tensor | bool | ||
id_usuario | Tensor | cuerda | ||
etiqueta_ocupación_usuario | Etiqueta de clase | int64 | ||
texto_ocupacion_usuario | Tensor | cuerda | ||
Opiniones de los usuarios | Tensor | flotar32 | ||
código_zip_usuario | Tensor | cuerda |
- Ejemplos ( tfds.as_dataframe ):
movie_lens/100k-películas
Descripción de la configuración : este conjunto de datos contiene datos de 1682 películas calificadas en el conjunto de datos de 100k.
Tamaño de la descarga :
4.70 MiB
Tamaño del conjunto de datos :
150.35 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 1,682 |
- Estructura de características :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
generos_de_peliculas | Secuencia (Etiqueta de clase) | (Ninguna,) | int64 | |
movie_id | Tensor | cuerda | ||
título de la película | Tensor | cuerda |
- Ejemplos ( tfds.as_dataframe ):
movie_lens/1m-ratings
- Descripción de configuración : este conjunto de datos contiene 1,000,209 calificaciones anónimas de aproximadamente 3,900 películas realizadas por 6,040 usuarios de MovieLens que se unieron a MovieLens en
- Este conjunto de datos es el conjunto de datos más grande que incluye datos demográficos.
Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de estrellas enteras. En los datos demográficos, los valores de edad se dividen en rangos y el valor de edad más bajo para cada rango se usa en los datos en lugar de los valores reales.
Tamaño de la descarga :
5.64 MiB
Tamaño del conjunto de datos :
308.42 MiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 1,000,209 |
- Estructura de características :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
bucketized_user_age | Tensor | flotar32 | ||
generos_de_peliculas | Secuencia (Etiqueta de clase) | (Ninguna,) | int64 | |
movie_id | Tensor | cuerda | ||
título de la película | Tensor | cuerda | ||
marca de tiempo | Tensor | int64 | ||
género_usuario | Tensor | bool | ||
id_usuario | Tensor | cuerda | ||
etiqueta_ocupación_usuario | Etiqueta de clase | int64 | ||
texto_ocupacion_usuario | Tensor | cuerda | ||
Opiniones de los usuarios | Tensor | flotar32 | ||
código_zip_usuario | Tensor | cuerda |
- Ejemplos ( tfds.as_dataframe ):
movie_lens/1m-movies
Descripción de la configuración : este conjunto de datos contiene datos de aproximadamente 3900 películas clasificadas en el conjunto de datos de 1 m.
Tamaño de la descarga :
5.64 MiB
Tamaño del conjunto de datos :
351.12 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 3,883 |
- Estructura de características :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
generos_de_peliculas | Secuencia (Etiqueta de clase) | (Ninguna,) | int64 | |
movie_id | Tensor | cuerda | ||
título de la película | Tensor | cuerda |
- Ejemplos ( tfds.as_dataframe ):
movie_lens/20m-ratings
- Descripción de la configuración : este conjunto de datos contiene 20 000 263 calificaciones en 27 278 películas, creadas por 138 493 usuarios entre el 9 de enero de 1995 y el 31 de marzo de 2015. Este conjunto de datos se generó el 17 de octubre de 2016.
Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de media estrella. Este conjunto de datos no contiene datos demográficos.
Tamaño de descarga :
189.50 MiB
Tamaño del conjunto de datos :
3.10 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 20,000,263 |
- Estructura de características :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
generos_de_peliculas | Secuencia (Etiqueta de clase) | (Ninguna,) | int64 | |
movie_id | Tensor | cuerda | ||
título de la película | Tensor | cuerda | ||
marca de tiempo | Tensor | int64 | ||
id_usuario | Tensor | cuerda | ||
Opiniones de los usuarios | Tensor | flotar32 |
- Ejemplos ( tfds.as_dataframe ):
movie_lens/20m-movies
Descripción de la configuración : este conjunto de datos contiene datos de 27 278 películas calificadas en el conjunto de datos de 20 m.
Tamaño de descarga :
189.50 MiB
Tamaño del conjunto de datos :
2.55 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 27,278 |
- Estructura de características :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
generos_de_peliculas | Secuencia (Etiqueta de clase) | (Ninguna,) | int64 | |
movie_id | Tensor | cuerda | ||
título de la película | Tensor | cuerda |
- Ejemplos ( tfds.as_dataframe ):