- 説明:
このデータセットには、映画レコメンデーション サービスである MovieLens Web サイトからの一連の映画評価が含まれています。このデータセットは、ミネソタ大学の研究グループであるGroupLensによって収集および管理されています。 「25m」、「最新小」、「100k」、「1m」、「20m」の5つのバージョンが含まれています。すべてのデータセットで、映画データと評価データは「movieId」で結合されます。 25m データセット、最新の小規模データセット、および 20m データセットには、動画データと評価データのみが含まれます。 1m データセットと 100k データセットには、映画と評価のデータに加えて、人口統計データが含まれています。
- "25m": これは、MovieLens データセットの最新の安定バージョンです。研究用途にお勧めです。
- "latest-small": これは、MovieLens データセットの最新バージョンの小さなサブセットです。これは、GroupLens によって時間の経過とともに変更および更新されます。
- "100k": これは、MovieLens データセットの最も古いバージョンです。これは、人口統計データを含む小さなデータセットです。
- "1m": これは、人口統計データを含む最大の MovieLens データセットです。
- "20m": これは、学術論文で 1m データセットと共に最も使用されている MovieLens データセットの 1 つです。
バージョンごとに、ユーザーは、"-movies" サフィックスを追加して映画データのみ (例: "25m-movies") を表示するか、映画データ (および 1m および 100k データセットのユーザー データ) に結合された評価データを表示できます。 "-ratings" サフィックス (例: "25m-ratings")。
以下の機能は、「-ratings」サフィックスが付いたすべてのバージョンに含まれています。
- 「movie_id」: 評価された映画の一意の識別子
- "movie_title": 評価された映画のタイトルで、括弧内にリリース年が含まれています
- 「movie_genres」: 評価された映画が属する一連のジャンル
- "user_id": 評価を行ったユーザーの一意の識別子
- "user_rating": 5 つ星スケールでの評価のスコア
- 「タイムスタンプ」: 1970 年 1 月 1 日の協定世界時 (UTC) の午前 0 時からの秒数で表される評価のタイムスタンプ
「100k-ratings」および「1m-ratings」バージョンには、さらに次の人口統計機能が含まれています。
- "user_gender": 評価を行ったユーザーの性別。真の値は男性に対応します
- "bucketized_user_age": 評価を行ったユーザーのバケット化された年齢値、値および対応する範囲は次のとおりです。
- 1:「18歳未満」
- 18:「18-24」
- 25:「25-34」
- 35:「35-44」
- 45:「45-49」
- 50:「50-55」
- 56:「56+」
- 「user_occupation_label」: 整数でエンコードされたラベルで表される評価を作成したユーザーの職業。ラベルは、異なるバージョン間で一貫性を保つために前処理されています
- "user_occupation_text": 元の文字列で評価を行ったユーザーの職業。バージョンが異なれば、生のテキスト ラベルのセットも異なる場合があります
- "user_zip_code": 評価を行ったユーザーの郵便番号
さらに、「100k-ratings」データセットには、評価を行ったユーザーの正確な年齢である機能「raw_user_age」も含まれます。
「-movies」サフィックスが付いたデータセットには、「movie_id」、「movie_title」、および「movie_genres」機能のみが含まれます。
ソース コード:
tfds.structured.MovieLens
バージョン:
-
0.1.1
(デフォルト): リリース ノートはありません。
-
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movie_lens/25m-ratings (デフォルト設定)
- 構成の説明: このデータセットには、1995 年 1 月 9 日から 11 月 21 日の間に 162,541 人のユーザーによって作成された 62,423 本の映画にわたる 25,000,095 の評価が含まれています。
- このデータセットは、2019 年 11 月 21 日に生成された MovieLens データセットの最新の安定バージョンです。
各ユーザーは少なくとも 20 本の映画を評価しています。評価は半星刻みです。このデータセットには、人口統計データは含まれていません。
ダウンロードサイズ:
249.84 MiB
データセットサイズ:
3.89 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 25,000,095 |
- 機能構造:
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
映画のジャンル | シーケンス(クラスラベル) | (なし、) | int64 | |
movie_id | テンソル | ストリング | ||
映画のタイトル | テンソル | ストリング | ||
タイムスタンプ | テンソル | int64 | ||
ユーザーID | テンソル | ストリング | ||
ユーザー評価 | テンソル | float32 |
- 例( tfds.as_dataframe ):
movie_lens/25m-movies
構成の説明: このデータセットには、25m データセットで評価された 62,423 本の映画のデータが含まれています。
ダウンロードサイズ:
249.84 MiB
データセットサイズ:
5.71 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 62,423 |
- 機能構造:
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
映画のジャンル | シーケンス(クラスラベル) | (なし、) | int64 | |
movie_id | テンソル | ストリング | ||
映画のタイトル | テンソル | ストリング |
- 例( tfds.as_dataframe ):
movie_lens/latest-small-ratings
- 構成の説明: このデータセットには、1996 年 3 月 29 日から 2018 年 9 月 24 日の間に 610 人のユーザーによって作成された 9,742 本の映画にわたる 100,836 の評価が含まれています。このデータセットは 2018 年 9 月 26 日に生成され、MovieLens データセットの完全な最新バージョンのサブセットです.このデータセットは、時間の経過とともに変更および更新されます。
各ユーザーは少なくとも 20 本の映画を評価しています。評価は半星刻みです。このデータセットには、人口統計データは含まれていません。
ダウンロードサイズ:
955.28 KiB
データセットサイズ:
15.82 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 100,836 |
- 機能構造:
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
映画のジャンル | シーケンス(クラスラベル) | (なし、) | int64 | |
movie_id | テンソル | ストリング | ||
映画のタイトル | テンソル | ストリング | ||
タイムスタンプ | テンソル | int64 | ||
ユーザーID | テンソル | ストリング | ||
ユーザー評価 | テンソル | float32 |
- 例( tfds.as_dataframe ):
movie_lens/latest-small-movies
構成の説明: このデータセットには、最新の小さなデータセットで評価された 9,742 本の映画のデータが含まれています。
ダウンロードサイズ:
955.28 KiB
データセットサイズ:
910.64 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 9,742 |
- 機能構造:
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
映画のジャンル | シーケンス(クラスラベル) | (なし、) | int64 | |
movie_id | テンソル | ストリング | ||
映画のタイトル | テンソル | ストリング |
- 例( tfds.as_dataframe ):
movie_lens/100k-ratings
- 構成の説明: このデータセットには、1,682 本の映画に関する 943 人のユーザーからの 100,000 の評価が含まれています。このデータセットは、MovieLens データセットの最も古いバージョンです。
各ユーザーは少なくとも 20 本の映画を評価しています。評価は星全体の増分です。このデータセットには、映画や評価に関するデータに加えて、ユーザーの人口統計データが含まれています。
ダウンロードサイズ:
4.70 MiB
データセットのサイズ:
32.41 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 100,000 |
- 機能構造:
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
bucketized_user_age | テンソル | float32 | ||
映画のジャンル | シーケンス(クラスラベル) | (なし、) | int64 | |
movie_id | テンソル | ストリング | ||
映画のタイトル | テンソル | ストリング | ||
raw_user_age | テンソル | float32 | ||
タイムスタンプ | テンソル | int64 | ||
ユーザーの性別 | テンソル | ブール | ||
ユーザーID | テンソル | ストリング | ||
user_occupation_label | クラスラベル | int64 | ||
user_occupation_text | テンソル | ストリング | ||
ユーザー評価 | テンソル | float32 | ||
user_zip_code | テンソル | ストリング |
- 例( tfds.as_dataframe ):
movie_lens/100k-movies
構成の説明: このデータセットには、100k データセットで評価された 1,682 本の映画のデータが含まれています。
ダウンロードサイズ:
4.70 MiB
データセットサイズ:
150.35 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 1,682 |
- 機能構造:
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
映画のジャンル | シーケンス(クラスラベル) | (なし、) | int64 | |
movie_id | テンソル | ストリング | ||
映画のタイトル | テンソル | ストリング |
- 例( tfds.as_dataframe ):
movie_lens/1m-ratings
- 構成の説明: このデータセットには、MovieLens に参加した 6,040 人の MovieLens ユーザーによって作成された約 3,900 の映画の 1,000,209 の匿名評価が含まれています。
- このデータセットは、人口統計データを含む最大のデータセットです。
各ユーザーは少なくとも 20 本の映画を評価しています。評価は星全体の増分です。人口統計データでは、年齢の値が範囲に分割され、実際の値ではなく、各範囲の最も低い年齢の値がデータで使用されます。
ダウンロードサイズ:
5.64 MiB
データセットサイズ:
308.42 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 1,000,209 |
- 機能構造:
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
bucketized_user_age | テンソル | float32 | ||
映画のジャンル | シーケンス(クラスラベル) | (なし、) | int64 | |
movie_id | テンソル | ストリング | ||
映画のタイトル | テンソル | ストリング | ||
タイムスタンプ | テンソル | int64 | ||
ユーザーの性別 | テンソル | ブール | ||
ユーザーID | テンソル | ストリング | ||
user_occupation_label | クラスラベル | int64 | ||
user_occupation_text | テンソル | ストリング | ||
ユーザー評価 | テンソル | float32 | ||
user_zip_code | テンソル | ストリング |
- 例( tfds.as_dataframe ):
movie_lens/1m-movies
構成の説明: このデータセットには、1m データセットで評価された約 3,900 本の映画のデータが含まれています。
ダウンロードサイズ:
5.64 MiB
データセットサイズ:
351.12 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 3,883 |
- 機能構造:
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
映画のジャンル | シーケンス(クラスラベル) | (なし、) | int64 | |
movie_id | テンソル | ストリング | ||
映画のタイトル | テンソル | ストリング |
- 例( tfds.as_dataframe ):
movie_lens/20m-ratings
- 構成の説明: このデータセットには、1995 年 1 月 9 日から 2015 年 3 月 31 日の間に 138,493 人のユーザーによって作成された 27,278 本の映画にわたる 20,000,263 の評価が含まれています。このデータセットは 2016 年 10 月 17 日に生成されました。
各ユーザーは少なくとも 20 本の映画を評価しています。評価は半星刻みです。このデータセットには人口統計データが含まれていません。
ダウンロードサイズ:
189.50 MiB
データセットサイズ:
3.10 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 20,000,263 |
- 機能構造:
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
映画のジャンル | シーケンス(クラスラベル) | (なし、) | int64 | |
movie_id | テンソル | ストリング | ||
映画のタイトル | テンソル | ストリング | ||
タイムスタンプ | テンソル | int64 | ||
ユーザーID | テンソル | ストリング | ||
ユーザー評価 | テンソル | float32 |
- 例( tfds.as_dataframe ):
movie_lens/20m-movies
構成の説明: このデータセットには、20m データセットで評価された 27,278 本の映画のデータが含まれています。
ダウンロードサイズ:
189.50 MiB
データセットサイズ:
2.55 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 27,278 |
- 機能構造:
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
映画のジャンル | シーケンス(クラスラベル) | (なし、) | int64 | |
movie_id | テンソル | ストリング | ||
映画のタイトル | テンソル | ストリング |
- 例( tfds.as_dataframe ):