- Descriptif :
Cet ensemble de données contient un ensemble de classements de films du site Web MovieLens, un service de recommandation de films. Cet ensemble de données a été collecté et maintenu par GroupLens , un groupe de recherche de l'Université du Minnesota. Il existe 5 versions incluses : "25m", "latest-small", "100k", "1m", "20m". Dans tous les ensembles de données, les données de films et les données d'évaluation sont jointes sur "movieId". L'ensemble de données 25 m, l'ensemble de données le plus récent et l'ensemble de données 20 m ne contiennent que des données de film et des données d'évaluation. L'ensemble de données 1m et l'ensemble de données 100k contiennent des données démographiques en plus des données sur les films et les classements.
- "25m": Il s'agit de la dernière version stable de l'ensemble de données MovieLens. Il est recommandé à des fins de recherche.
- "latest-small" : il s'agit d'un petit sous-ensemble de la dernière version de l'ensemble de données MovieLens. Il est modifié et mis à jour au fil du temps par GroupLens.
- "100k": Il s'agit de la version la plus ancienne des ensembles de données MovieLens. Il s'agit d'un petit ensemble de données contenant des données démographiques.
- "1 m" : il s'agit du plus grand ensemble de données MovieLens contenant des données démographiques.
- "20m": Il s'agit de l'un des ensembles de données MovieLens les plus utilisés dans les articles universitaires avec l'ensemble de données 1m.
Pour chaque version, les utilisateurs peuvent afficher soit uniquement les données des films en ajoutant le suffixe "-movies" (par exemple "25m-movies"), soit les données d'évaluation jointes aux données des films (et les données des utilisateurs dans les ensembles de données 1m et 100k) en ajoutant le suffixe "-ratings" (par exemple "25m-ratings").
Les fonctionnalités ci-dessous sont incluses dans toutes les versions avec le suffixe "-ratings".
- "movie_id": un identifiant unique du film noté
- "movie_title": le titre du film classé avec l'année de sortie entre parenthèses
- "movie_genres": une séquence de genres auxquels appartient le film classé
- "user_id": un identifiant unique de l'utilisateur qui a fait l'évaluation
- "user_rating": le score de la note sur une échelle de cinq étoiles
- "horodatage" : l'horodatage des notes, représenté en secondes depuis minuit Temps universel coordonné (UTC) du 1er janvier 1970
Les versions "100k-ratings" et "1m-ratings" incluent en outre les caractéristiques démographiques suivantes.
- "user_gender" : sexe de l'utilisateur qui a effectué l'évaluation ; une vraie valeur correspond au masculin
- "bucketized_user_age" : les valeurs d'âge de l'utilisateur qui a effectué l'évaluation, les valeurs et les plages correspondantes sont :
- 1 : "Moins de 18 ans"
- 18: "18-24"
- 25 : "25-34"
- 35 : "35-44"
- 45 : "45-49"
- 50 : "50-55"
- 56 : "56+"
- « user_occupation_label » : la profession de l'utilisateur qui a effectué l'évaluation représentée par une étiquette codée en nombre entier ; les étiquettes sont prétraitées pour être cohérentes entre les différentes versions
- "user_occupation_text": la profession de l'utilisateur qui a fait l'évaluation dans la chaîne d'origine ; différentes versions peuvent avoir un ensemble différent d'étiquettes de texte brut
- "user_zip_code": le code postal de l'utilisateur qui a fait l'évaluation
De plus, l'ensemble de données "100k-ratings" aurait également une fonctionnalité "raw_user_age" qui est l'âge exact des utilisateurs qui ont fait la note
Les ensembles de données avec le suffixe "-movies" contiennent uniquement les fonctionnalités "movie_id", "movie_title" et "movie_genres".
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://grouplens.org/datasets/movielens/
Code source :
tfds.structured.Movielens
Versions :
-
0.1.1
(par défaut) : aucune note de version.
-
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movielens/25m-ratings (configuration par défaut)
- Description de la configuration : cet ensemble de données contient 25 000 095 avis sur 62 423 films, créés par 162 541 utilisateurs entre le 9 janvier 1995 et le 21 novembre.
- Cet ensemble de données est la dernière version stable de l'ensemble de données MovieLens, généré le 21 novembre 2019.
Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'une demi-étoile. Cet ensemble de données ne comprend pas de données démographiques.
Taille du téléchargement :
249.84 MiB
Taille du jeu de données :
3.89 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 25 000 095 |
- Structure des fonctionnalités :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
movie_genres | Séquence(ClassLabel) | (Aucun,) | int64 | |
movie_id | Tenseur | chaîne de caractères | ||
titre du film | Tenseur | chaîne de caractères | ||
horodatage | Tenseur | int64 | ||
identifiant d'utilisateur | Tenseur | chaîne de caractères | ||
note de l'utilisateur | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
movielens/25m-films
Description de la configuration : cet ensemble de données contient les données de 62 423 films classés dans l'ensemble de données de 25 m.
Taille du téléchargement :
249.84 MiB
Taille du jeu de données :
5.71 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 62 423 |
- Structure des fonctionnalités :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
movie_genres | Séquence(ClassLabel) | (Aucun,) | int64 | |
movie_id | Tenseur | chaîne de caractères | ||
titre du film | Tenseur | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
movielens/dernières-petites-notes
- Description de la configuration : cet ensemble de données contient 100 836 notes sur 9 742 films, créés par 610 utilisateurs entre le 29 mars 1996 et le 24 septembre 2018. Cet ensemble de données est généré le 26 septembre 2018 et constitue un sous-ensemble de la dernière version complète de l'ensemble de données MovieLens. . Cet ensemble de données est modifié et mis à jour au fil du temps.
Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'une demi-étoile. Cet ensemble de données ne comprend pas de données démographiques.
Taille du téléchargement :
955.28 KiB
Taille du jeu de données :
15.82 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 100 836 |
- Structure des fonctionnalités :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
movie_genres | Séquence(ClassLabel) | (Aucun,) | int64 | |
movie_id | Tenseur | chaîne de caractères | ||
titre du film | Tenseur | chaîne de caractères | ||
horodatage | Tenseur | int64 | ||
identifiant d'utilisateur | Tenseur | chaîne de caractères | ||
note de l'utilisateur | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
movielens/derniers-petits-films
Description de la configuration : cet ensemble de données contient les données de 9 742 films classés dans le dernier petit ensemble de données.
Taille du téléchargement :
955.28 KiB
Taille du jeu de données :
910.64 KiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 9 742 |
- Structure des fonctionnalités :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
movie_genres | Séquence(ClassLabel) | (Aucun,) | int64 | |
movie_id | Tenseur | chaîne de caractères | ||
titre du film | Tenseur | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
movielens/100k-notes
- Description de la configuration : cet ensemble de données contient 100 000 avis de 943 utilisateurs sur 1 682 films. Cet ensemble de données est la version la plus ancienne de l'ensemble de données MovieLens.
Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'étoiles entières. Cet ensemble de données contient des données démographiques sur les utilisateurs en plus des données sur les films et les classements.
Taille du téléchargement :
4.70 MiB
Taille du jeu de données :
32.41 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 100 000 |
- Structure des fonctionnalités :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
bucketized_user_age | Tenseur | float32 | ||
movie_genres | Séquence(ClassLabel) | (Aucun,) | int64 | |
movie_id | Tenseur | chaîne de caractères | ||
titre du film | Tenseur | chaîne de caractères | ||
raw_user_age | Tenseur | float32 | ||
horodatage | Tenseur | int64 | ||
user_gender | Tenseur | bourdonner | ||
identifiant d'utilisateur | Tenseur | chaîne de caractères | ||
user_occupation_label | Étiquette de classe | int64 | ||
user_occupation_text | Tenseur | chaîne de caractères | ||
note de l'utilisateur | Tenseur | float32 | ||
code_zip_utilisateur | Tenseur | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
movielens/100k-films
Description de la configuration : cet ensemble de données contient les données de 1 682 films classés dans l'ensemble de données 100 000.
Taille du téléchargement :
4.70 MiB
Taille du jeu de données :
150.35 KiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 1 682 |
- Structure des fonctionnalités :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
movie_genres | Séquence(ClassLabel) | (Aucun,) | int64 | |
movie_id | Tenseur | chaîne de caractères | ||
titre du film | Tenseur | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
movielens/1m-notes
- Description de la configuration : cet ensemble de données contient 1 000 209 évaluations anonymes d'environ 3 900 films réalisés par 6 040 utilisateurs de MovieLens qui ont rejoint MovieLens en
- Cet ensemble de données est le plus grand ensemble de données qui inclut des données démographiques.
Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'étoiles entières. Dans les données démographiques, les valeurs d'âge sont divisées en plages et la valeur d'âge la plus basse pour chaque plage est utilisée dans les données au lieu des valeurs réelles.
Taille du téléchargement :
5.64 MiB
Taille du jeu de données :
308.42 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 1 000 209 |
- Structure des fonctionnalités :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
bucketized_user_age | Tenseur | float32 | ||
movie_genres | Séquence(ClassLabel) | (Aucun,) | int64 | |
movie_id | Tenseur | chaîne de caractères | ||
titre du film | Tenseur | chaîne de caractères | ||
horodatage | Tenseur | int64 | ||
user_gender | Tenseur | bourdonner | ||
identifiant d'utilisateur | Tenseur | chaîne de caractères | ||
user_occupation_label | Étiquette de classe | int64 | ||
user_occupation_text | Tenseur | chaîne de caractères | ||
note de l'utilisateur | Tenseur | float32 | ||
code_zip_utilisateur | Tenseur | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
movielens/1m-films
Description de la configuration : cet ensemble de données contient les données d'environ 3 900 films classés dans l'ensemble de données de 1 m.
Taille du téléchargement :
5.64 MiB
Taille du jeu de données :
351.12 KiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 3 883 |
- Structure des fonctionnalités :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
movie_genres | Séquence(ClassLabel) | (Aucun,) | int64 | |
movie_id | Tenseur | chaîne de caractères | ||
titre du film | Tenseur | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
movielens/20m-notes
- Description de la configuration : cet ensemble de données contient 20 000 263 avis sur 27 278 films, créés par 138 493 utilisateurs entre le 9 janvier 1995 et le 31 mars 2015. Cet ensemble de données a été généré le 17 octobre 2016.
Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'une demi-étoile. Cet ensemble de données ne contient pas de données démographiques.
Taille du téléchargement :
189.50 MiB
Taille du jeu de données :
3.10 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 20 000 263 |
- Structure des fonctionnalités :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
movie_genres | Séquence(ClassLabel) | (Aucun,) | int64 | |
movie_id | Tenseur | chaîne de caractères | ||
titre du film | Tenseur | chaîne de caractères | ||
horodatage | Tenseur | int64 | ||
identifiant d'utilisateur | Tenseur | chaîne de caractères | ||
note de l'utilisateur | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
movielens/20m-films
Description de la configuration : cet ensemble de données contient les données de 27 278 films classés dans l'ensemble de données de 20 m
Taille du téléchargement :
189.50 MiB
Taille du jeu de données :
2.55 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 27 278 |
- Structure des fonctionnalités :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
movie_genres | Séquence(ClassLabel) | (Aucun,) | int64 | |
movie_id | Tenseur | chaîne de caractères | ||
titre du film | Tenseur | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):