obiektyw filmowy

  • opis :

Ten zestaw danych zawiera zestaw ocen filmów z witryny MovieLens, usługi rekomendacji filmów. Ten zbiór danych został zebrany i utrzymywany przez GroupLens , grupę badawczą z University of Minnesota. Dostępnych jest 5 wersji: „25m”, „najnowszy-mały”, „100k”, „1m”, „20m”. We wszystkich zestawach danych dane filmów i dane ocen są łączone w „movieId”. Zestaw danych 25m, najnowszy mały zestaw danych i zestaw danych 20m zawierają tylko dane filmów i dane ocen. Zbiór danych 1m i 100k zawiera dane demograficzne oprócz danych o filmach i ocenach.

  • „25m”: To jest najnowsza stabilna wersja zestawu danych MovieLens. Jest zalecany do celów badawczych.
  • „najnowsza mała”: jest to mały podzbiór najnowszej wersji zestawu danych MovieLens. Z czasem jest zmieniany i aktualizowany przez GroupLens.
  • „100k”: jest to najstarsza wersja zestawów danych MovieLens. Jest to mały zbiór danych z danymi demograficznymi.
  • „1m”: jest to największy zbiór danych MovieLens, który zawiera dane demograficzne.
  • „20m”: Jest to jeden z najczęściej używanych zestawów danych MovieLens w artykułach akademickich wraz z zestawem danych 1m.

W przypadku każdej wersji użytkownicy mogą wyświetlać tylko dane dotyczące filmów, dodając sufiks „-movies” (np. przyrostek „-ratings” (np. „25m-ratings”).

Poniższe funkcje są dostępne we wszystkich wersjach z przyrostkiem „-ratings”.

  • „movie_id”: unikalny identyfikator ocenianego filmu
  • „movie_title”: tytuł ocenianego filmu z rokiem premiery w nawiasie
  • „movie_genres”: sekwencja gatunków, do których należy oceniany film
  • „user_id”: unikalny identyfikator użytkownika, który dokonał oceny
  • „user_rating”: wynik oceny w pięciogwiazdkowej skali
  • „timestamp”: znacznik czasu ocen, wyrażony w sekundach od północy uniwersalnego czasu koordynowanego (UTC) z dnia 1 stycznia 1970 r.

Wersje „100k-ratings” i „1m-ratings” obejmują ponadto następujące cechy demograficzne.

  • „user_gender”: płeć użytkownika, który dokonał oceny; prawdziwa wartość odpowiada mężczyźnie
  • „bucketized_user_age”: zbiorcze wartości wieku użytkownika, który dokonał oceny, wartości i odpowiadające im zakresy to:
    • 1: „Poniżej 18 lat”
    • 18: „18-24”
    • 25: „25-34”
    • 35: "35-44"
    • 45: "45-49"
    • 50: „50-55”
    • 56: "56+"
  • „user_occupation_label”: zawód użytkownika, który dokonał oceny, reprezentowany przez etykietę zakodowaną w liczbach całkowitych; etykiety są wstępnie przetwarzane, aby były spójne w różnych wersjach
  • „user_occupation_text”: zawód użytkownika, który dokonał oceny w oryginalnym ciągu; różne wersje mogą mieć różne zestawy surowych etykiet tekstowych
  • „user_zip_code”: kod pocztowy użytkownika, który dokonał oceny

Ponadto zestaw danych „100 000 ocen” miałby również funkcję „raw_user_age”, która określa dokładny wiek użytkowników, którzy dokonali oceny

Zestawy danych z sufiksem „-movies” zawierają tylko funkcje „movie_id”, „movie_title” i „movie_genres”.

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings (domyślna konfiguracja)

  • Opis konfiguracji: ten zestaw danych zawiera 25 000 095 ocen 62 423 filmów utworzonych przez 162 541 użytkowników między 9 stycznia 1995 a 21 listopada,
  • Ten zestaw danych to najnowsza stabilna wersja zestawu danych MovieLens wygenerowana 21 listopada 2019 r.

Każdy użytkownik ocenił co najmniej 20 filmów. Oceny podawane są w odstępach półgwiazdkowych. Ten zbiór danych nie zawiera danych demograficznych.

  • Rozmiar pliku do pobrania : 249.84 MiB

  • Rozmiar zestawu danych : 3.89 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 25 000 095
  • Struktura funkcji :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
gatunek_filmu Sekwencja (etykieta klasy) (Nic,) int64
identyfikator_filmu Napinacz strunowy
tytuł filmu Napinacz strunowy
znak czasu Napinacz int64
identyfikator użytkownika Napinacz strunowy
ocena użytkownika Napinacz pływak32

filmowe/25m-filmy

  • Opis konfiguracji: ten zestaw danych zawiera dane 62 423 filmów ocenionych w zbiorze danych 25 mln.

  • Rozmiar pliku do pobrania : 249.84 MiB

  • Rozmiar zestawu danych : 5.71 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 62423
  • Struktura funkcji :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
gatunek_filmu Sekwencja (etykieta klasy) (Nic,) int64
identyfikator_filmu Napinacz strunowy
tytuł filmu Napinacz strunowy

movielens/ostatnie małe oceny

  • Opis konfiguracji: ten zestaw danych zawiera 100 836 ocen 9742 filmów utworzonych przez 610 użytkowników między 29 marca 1996 r. a 24 września 2018 r. Ten zestaw danych został wygenerowany 26 września 2018 r. i jest podzbiorem pełnej najnowszej wersji zestawu danych MovieLens . Ten zestaw danych jest zmieniany i aktualizowany w miarę upływu czasu.

Każdy użytkownik ocenił co najmniej 20 filmów. Oceny podawane są w odstępach półgwiazdkowych. Ten zbiór danych nie zawiera danych demograficznych.

  • Rozmiar pliku do pobrania : 955.28 KiB

  • Rozmiar zestawu danych : 15.82 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 100 836
  • Struktura funkcji :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
gatunek_filmu Sekwencja (etykieta klasy) (Nic,) int64
identyfikator_filmu Napinacz strunowy
tytuł filmu Napinacz strunowy
znak czasu Napinacz int64
identyfikator użytkownika Napinacz strunowy
ocena użytkownika Napinacz pływak32

movielens/najnowsze-małe-filmy

  • Opis konfiguracji : ten zestaw danych zawiera dane 9742 filmów ocenionych w najnowszym małym zbiorze danych.

  • Rozmiar pliku do pobrania : 955.28 KiB

  • Rozmiar zbioru danych : 910.64 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 9742
  • Struktura funkcji :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
gatunek_filmu Sekwencja (etykieta klasy) (Nic,) int64
identyfikator_filmu Napinacz strunowy
tytuł filmu Napinacz strunowy

movielens/100k-oceny

  • Opis konfiguracji : Ten zestaw danych zawiera 100 000 ocen 943 użytkowników 1682 filmów. Ten zestaw danych jest najstarszą wersją zestawu danych MovieLens.

Każdy użytkownik ocenił co najmniej 20 filmów. Oceny podawane są w pełnych gwiazdkach. Ten zestaw danych zawiera dane demograficzne użytkowników oprócz danych o filmach i ocenach.

  • Rozmiar pliku do pobrania : 4.70 MiB

  • Rozmiar zestawu danych : 32.41 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 100 000
  • Struktura funkcji :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
Bucketized_user_age Napinacz pływak32
gatunek_filmu Sekwencja (etykieta klasy) (Nic,) int64
identyfikator_filmu Napinacz strunowy
tytuł filmu Napinacz strunowy
raw_user_age Napinacz pływak32
znak czasu Napinacz int64
płeć_użytkownika Napinacz bool
identyfikator użytkownika Napinacz strunowy
etykieta_zawodu_użytkownika Etykieta klasy int64
tekst_zawodu_użytkownika Napinacz strunowy
ocena użytkownika Napinacz pływak32
kod_zip_użytkownika Napinacz strunowy

filmowe/100k-filmów

  • Opis konfiguracji : ten zestaw danych zawiera dane 1682 filmów ocenionych w zbiorze danych 100 000.

  • Rozmiar pliku do pobrania : 4.70 MiB

  • Rozmiar zestawu danych : 150.35 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 1682
  • Struktura funkcji :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
gatunek_filmu Sekwencja (etykieta klasy) (Nic,) int64
identyfikator_filmu Napinacz strunowy
tytuł filmu Napinacz strunowy

movielens/1m-oceny

  • Opis konfiguracji: ten zestaw danych zawiera 1 000 209 anonimowych ocen około 3900 filmów stworzonych przez 6040 użytkowników MovieLens, którzy dołączyli do MovieLens w
  • Ten zestaw danych jest największym zestawem danych, który zawiera dane demograficzne.

Każdy użytkownik ocenił co najmniej 20 filmów. Oceny podawane są w pełnych gwiazdkach. W danych demograficznych wartości wieku są podzielone na przedziały, a zamiast rzeczywistych wartości w danych używana jest najniższa wartość wieku dla każdego przedziału.

  • Rozmiar pliku do pobrania : 5.64 MiB

  • Rozmiar zestawu danych : 308.42 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 1 000 209
  • Struktura funkcji :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
Bucketized_user_age Napinacz pływak32
gatunek_filmu Sekwencja (etykieta klasy) (Nic,) int64
identyfikator_filmu Napinacz strunowy
tytuł filmu Napinacz strunowy
znak czasu Napinacz int64
płeć_użytkownika Napinacz bool
identyfikator użytkownika Napinacz strunowy
etykieta_zawodu_użytkownika Etykieta klasy int64
tekst_zawodu_użytkownika Napinacz strunowy
ocena użytkownika Napinacz pływak32
kod_zip_użytkownika Napinacz strunowy

filmowe/1m-filmów

  • Opis konfiguracji : ten zestaw danych zawiera dane około 3900 filmów ocenionych w 1m zbiorze danych.

  • Rozmiar pliku do pobrania : 5.64 MiB

  • Rozmiar zbioru danych : 351.12 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 3883
  • Struktura funkcji :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
gatunek_filmu Sekwencja (etykieta klasy) (Nic,) int64
identyfikator_filmu Napinacz strunowy
tytuł filmu Napinacz strunowy

movielens/20m-oceny

  • Opis konfiguracji: Ten zestaw danych zawiera 20 000 263 ocen 27 278 filmów utworzonych przez 138 493 użytkowników między 9 stycznia 1995 r. a 31 marca 2015 r. Ten zestaw danych został wygenerowany 17 października 2016 r.

Każdy użytkownik ocenił co najmniej 20 filmów. Oceny są w krokach co pół gwiazdki. Ten zbiór danych nie zawiera danych demograficznych.

  • Rozmiar pliku do pobrania : 189.50 MiB

  • Rozmiar zestawu danych : 3.10 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 20 000 263
  • Struktura funkcji :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
gatunek_filmu Sekwencja (etykieta klasy) (Nic,) int64
identyfikator_filmu Napinacz strunowy
tytuł filmu Napinacz strunowy
znak czasu Napinacz int64
identyfikator użytkownika Napinacz strunowy
ocena użytkownika Napinacz pływak32

filmowe/20m-filmy

  • Opis konfiguracji: Ten zestaw danych zawiera dane 27 278 filmów ocenionych w zbiorze danych 20 m

  • Rozmiar pliku do pobrania : 189.50 MiB

  • Rozmiar zestawu danych : 2.55 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 27278
  • Struktura funkcji :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
gatunek_filmu Sekwencja (etykieta klasy) (Nic,) int64
identyfikator_filmu Napinacz strunowy
tytuł filmu Napinacz strunowy