movielens

  • 説明:

このデータセットには、映画レコメンデーション サービスである MovieLens Web サイトからの一連の映画評価が含まれています。このデータセットは、ミネソタ大学の研究グループであるGroupLensによって収集および管理されています。 「25m」、「最新小」、「100k」、「1m」、「20m」の5つのバージョンが含まれています。すべてのデータセットで、映画データと評価データは「movieId」で結合されます。 25m データセット、最新の小規模データセット、および 20m データセットには、動画データと評価データのみが含まれます。 1m データセットと 100k データセットには、映画と評価のデータに加えて、人口統計データが含まれています。

  • "25m": これは、MovieLens データセットの最新の安定バージョンです。研究用途にお勧めです。
  • "latest-small": これは、MovieLens データセットの最新バージョンの小さなサブセットです。これは、GroupLens によって時間の経過とともに変更および更新されます。
  • "100k": これは、MovieLens データセットの最も古いバージョンです。これは、人口統計データを含む小さなデータセットです。
  • "1m": これは、人口統計データを含む最大の MovieLens データセットです。
  • "20m": これは、学術論文で 1m データセットと共に最も使用されている MovieLens データセットの 1 つです。

バージョンごとに、ユーザーは、"-movies" サフィックスを追加して映画データのみ (例: "25m-movies") を表示するか、映画データ (および 1m および 100k データセットのユーザー データ) に結合された評価データを表示できます。 "-ratings" サフィックス (例: "25m-ratings")。

以下の機能は、「-ratings」サフィックスが付いたすべてのバージョンに含まれています。

  • 「movie_id」: 評価された映画の一意の識別子
  • "movie_title": 評価された映画のタイトルで、括弧内にリリース年が含まれています
  • 「movie_genres」: 評価された映画が属する一連のジャンル
  • "user_id": 評価を行ったユーザーの一意の識別子
  • "user_rating": 5 つ星スケールでの評価のスコア
  • 「タイムスタンプ」: 1970 年 1 月 1 日の協定世界時 (UTC) の午前 0 時からの秒数で表される評価のタイムスタンプ

「100k-ratings」および「1m-ratings」バージョンには、さらに次の人口統計機能が含まれています。

  • "user_gender": 評価を行ったユーザーの性別。真の値は男性に対応します
  • "bucketized_user_age": 評価を行ったユーザーのバケット化された年齢値、値および対応する範囲は次のとおりです。
    • 1:「18歳未満」
    • 18:「18-24」
    • 25:「25-34」
    • 35:「35-44」
    • 45:「45-49」
    • 50:「50-55」
    • 56:「56+」
  • 「user_occupation_label」: 整数でエンコードされたラベルで表される評価を作成したユーザーの職業。ラベルは、異なるバージョン間で一貫性を保つために前処理されています
  • "user_occupation_text": 元の文字列で評価を行ったユーザーの職業。バージョンが異なれば、生のテキスト ラベルのセットも異なる場合があります
  • "user_zip_code": 評価を行ったユーザーの郵便番号

さらに、「100k-ratings」データセットには、評価を行ったユーザーの正確な年齢である機能「raw_user_age」も含まれます。

「-movies」サフィックスが付いたデータセットには、「movie_id」、「movie_title」、および「movie_genres」機能のみが含まれます。

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings (デフォルト設定)

  • 構成の説明: このデータセットには、1995 年 1 月 9 日から 11 月 21 日の間に 162,541 人のユーザーによって作成された 62,423 本の映画にわたる 25,000,095 の評価が含まれています。
  • このデータセットは、2019 年 11 月 21 日に生成された MovieLens データセットの最新の安定バージョンです。

各ユーザーは少なくとも 20 本の映画を評価しています。評価は半星刻みです。このデータセットには、人口統計データは含まれていません。

  • ダウンロードサイズ: 249.84 MiB

  • データセットサイズ: 3.89 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 25,000,095
  • 機能構造:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
映画のジャンルシーケンス(クラスラベル) (なし、) int64
movie_idテンソルストリング
映画のタイトルテンソルストリング
タイムスタンプテンソルint64
ユーザーIDテンソルストリング
ユーザー評価テンソルfloat32

ムービーレンズ/25mムービー

  • 構成の説明: このデータセットには、25m データセットで評価された 62,423 本の映画のデータが含まれています。

  • ダウンロードサイズ: 249.84 MiB

  • データセットサイズ: 5.71 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 62,423
  • 機能構造:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
映画のジャンルシーケンス(クラスラベル) (なし、) int64
movie_idテンソルストリング
映画のタイトルテンソルストリング

movielens/latest-small-ratings

  • 構成の説明: このデータセットには、1996 年 3 月 29 日から 2018 年 9 月 24 日の間に 610 人のユーザーによって作成された 9,742 本の映画にわたる 100,836 の評価が含まれています。このデータセットは 2018 年 9 月 26 日に生成され、MovieLens データセットの完全な最新バージョンのサブセットです.このデータセットは、時間の経過とともに変更および更新されます。

各ユーザーは少なくとも 20 本の映画を評価しています。評価は半星刻みです。このデータセットには、人口統計データは含まれていません。

  • ダウンロードサイズ: 955.28 KiB

  • データセットサイズ: 15.82 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 100,836
  • 機能構造:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
映画のジャンルシーケンス(クラスラベル) (なし、) int64
movie_idテンソルストリング
映画のタイトルテンソルストリング
タイムスタンプテンソルint64
ユーザーIDテンソルストリング
ユーザー評価テンソルfloat32

movielens/最新の小さな映画

  • 構成の説明: このデータセットには、最新の小さなデータセットで評価された 9,742 本の映画のデータが含まれています。

  • ダウンロードサイズ: 955.28 KiB

  • データセットサイズ: 910.64 KiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 9,742
  • 機能構造:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
映画のジャンルシーケンス(クラスラベル) (なし、) int64
movie_idテンソルストリング
映画のタイトルテンソルストリング

movielens/100k-ratings

  • 構成の説明: このデータセットには、1,682 本の映画に関する 943 人のユーザーからの 100,000 の評価が含まれています。このデータセットは、MovieLens データセットの最も古いバージョンです。

各ユーザーは少なくとも 20 本の映画を評価しています。評価は星全体の増分です。このデータセットには、映画や評価に関するデータに加えて、ユーザーの人口統計データが含まれています。

  • ダウンロードサイズ: 4.70 MiB

  • データセットのサイズ: 32.41 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 100,000
  • 機能構造:
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
bucketized_user_ageテンソルfloat32
映画のジャンルシーケンス(クラスラベル) (なし、) int64
movie_idテンソルストリング
映画のタイトルテンソルストリング
raw_user_ageテンソルfloat32
タイムスタンプテンソルint64
ユーザーの性別テンソルブール
ユーザーIDテンソルストリング
user_occupation_labelクラスラベルint64
user_occupation_textテンソルストリング
ユーザー評価テンソルfloat32
user_zip_codeテンソルストリング

ムービーレンズ/100k-ムービー

  • 構成の説明: このデータセットには、100k データセットで評価された 1,682 本の映画のデータが含まれています。

  • ダウンロードサイズ: 4.70 MiB

  • データセットサイズ: 150.35 KiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 1,682
  • 機能構造:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
映画のジャンルシーケンス(クラスラベル) (なし、) int64
movie_idテンソルストリング
映画のタイトルテンソルストリング

ムービーレンズ/1m-レーティング

  • 構成の説明: このデータセットには、MovieLens に参加した 6,040 人の MovieLens ユーザーによって作成された約 3,900 の映画の 1,000,209 の匿名評価が含まれています。
  • このデータセットは、人口統計データを含む最大のデータセットです。

各ユーザーは少なくとも 20 本の映画を評価しています。評価は星全体の増分です。人口統計データでは、年齢の値が範囲に分割され、実際の値ではなく、各範囲の最も低い年齢の値がデータで使用されます。

  • ダウンロードサイズ: 5.64 MiB

  • データセットサイズ: 308.42 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 1,000,209
  • 機能構造:
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
bucketized_user_ageテンソルfloat32
映画のジャンルシーケンス(クラスラベル) (なし、) int64
movie_idテンソルストリング
映画のタイトルテンソルストリング
タイムスタンプテンソルint64
ユーザーの性別テンソルブール
ユーザーIDテンソルストリング
user_occupation_labelクラスラベルint64
user_occupation_textテンソルストリング
ユーザー評価テンソルfloat32
user_zip_codeテンソルストリング

ムービーレンズ/1m-movies

  • 構成の説明: このデータセットには、1m データセットで評価された約 3,900 本の映画のデータが含まれています。

  • ダウンロードサイズ: 5.64 MiB

  • データセットサイズ: 351.12 KiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 3,883
  • 機能構造:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
映画のジャンルシーケンス(クラスラベル) (なし、) int64
movie_idテンソルストリング
映画のタイトルテンソルストリング

ムービーレンズ/20m-レーティング

  • 構成の説明: このデータセットには、1995 年 1 月 9 日から 2015 年 3 月 31 日の間に 138,493 人のユーザーによって作成された 27,278 本の映画にわたる 20,000,263 の評価が含まれています。このデータセットは 2016 年 10 月 17 日に生成されました。

各ユーザーは少なくとも 20 本の映画を評価しています。評価は半星刻みです。このデータセットには人口統計データが含まれていません。

  • ダウンロードサイズ: 189.50 MiB

  • データセットサイズ: 3.10 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 20,000,263
  • 機能構造:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
映画のジャンルシーケンス(クラスラベル) (なし、) int64
movie_idテンソルストリング
映画のタイトルテンソルストリング
タイムスタンプテンソルint64
ユーザーIDテンソルストリング
ユーザー評価テンソルfloat32

ムービーレンズ/20mムービー

  • 構成の説明: このデータセットには、20m データセットで評価された 27,278 本の映画のデータが含まれています。

  • ダウンロードサイズ: 189.50 MiB

  • データセットサイズ: 2.55 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 27,278
  • 機能構造:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
映画のジャンルシーケンス(クラスラベル) (なし、) int64
movie_idテンソルストリング
映画のタイトルテンソルストリング