- opis :
Ten zestaw danych zawiera zestaw ocen filmów z witryny MovieLens, usługi rekomendacji filmów. Ten zbiór danych został zebrany i utrzymywany przez GroupLens , grupę badawczą z University of Minnesota. Dostępnych jest 5 wersji: „25m”, „najnowszy-mały”, „100k”, „1m”, „20m”. We wszystkich zestawach danych dane filmów i dane ocen są łączone w „movieId”. Zestaw danych 25m, najnowszy mały zestaw danych i zestaw danych 20m zawierają tylko dane filmów i dane ocen. Zbiór danych 1m i 100k zawiera dane demograficzne oprócz danych o filmach i ocenach.
- „25m”: To jest najnowsza stabilna wersja zestawu danych MovieLens. Jest zalecany do celów badawczych.
- „najnowsza mała”: jest to mały podzbiór najnowszej wersji zestawu danych MovieLens. Z czasem jest zmieniany i aktualizowany przez GroupLens.
- „100k”: jest to najstarsza wersja zestawów danych MovieLens. Jest to mały zbiór danych z danymi demograficznymi.
- „1m”: jest to największy zbiór danych MovieLens, który zawiera dane demograficzne.
- „20m”: Jest to jeden z najczęściej używanych zestawów danych MovieLens w artykułach akademickich wraz z zestawem danych 1m.
W przypadku każdej wersji użytkownicy mogą wyświetlać tylko dane dotyczące filmów, dodając sufiks „-movies” (np. przyrostek „-ratings” (np. „25m-ratings”).
Poniższe funkcje są dostępne we wszystkich wersjach z przyrostkiem „-ratings”.
- „movie_id”: unikalny identyfikator ocenianego filmu
- „movie_title”: tytuł ocenianego filmu z rokiem premiery w nawiasie
- „movie_genres”: sekwencja gatunków, do których należy oceniany film
- „user_id”: unikalny identyfikator użytkownika, który dokonał oceny
- „user_rating”: wynik oceny w pięciogwiazdkowej skali
- „timestamp”: znacznik czasu ocen, wyrażony w sekundach od północy uniwersalnego czasu koordynowanego (UTC) z dnia 1 stycznia 1970 r.
Wersje „100k-ratings” i „1m-ratings” obejmują ponadto następujące cechy demograficzne.
- „user_gender”: płeć użytkownika, który dokonał oceny; prawdziwa wartość odpowiada mężczyźnie
- „bucketized_user_age”: zbiorcze wartości wieku użytkownika, który dokonał oceny, wartości i odpowiadające im zakresy to:
- 1: „Poniżej 18 lat”
- 18: „18-24”
- 25: „25-34”
- 35: "35-44"
- 45: "45-49"
- 50: „50-55”
- 56: "56+"
- „user_occupation_label”: zawód użytkownika, który dokonał oceny, reprezentowany przez etykietę zakodowaną w liczbach całkowitych; etykiety są wstępnie przetwarzane, aby były spójne w różnych wersjach
- „user_occupation_text”: zawód użytkownika, który dokonał oceny w oryginalnym ciągu; różne wersje mogą mieć różne zestawy surowych etykiet tekstowych
- „user_zip_code”: kod pocztowy użytkownika, który dokonał oceny
Ponadto zestaw danych „100 000 ocen” miałby również funkcję „raw_user_age”, która określa dokładny wiek użytkowników, którzy dokonali oceny
Zestawy danych z sufiksem „-movies” zawierają tylko funkcje „movie_id”, „movie_title” i „movie_genres”.
Strona główna : https://grouplens.org/datasets/movielens/
Kod źródłowy :
tfds.structured.MovieLens
Wersje :
-
0.1.1
(domyślnie): Brak informacji o wersji.
-
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movie_lens/25m-ratings (domyślna konfiguracja)
- Opis konfiguracji: ten zestaw danych zawiera 25 000 095 ocen 62 423 filmów utworzonych przez 162 541 użytkowników między 9 stycznia 1995 a 21 listopada,
- Ten zestaw danych to najnowsza stabilna wersja zestawu danych MovieLens wygenerowana 21 listopada 2019 r.
Każdy użytkownik ocenił co najmniej 20 filmów. Oceny podawane są w odstępach półgwiazdkowych. Ten zbiór danych nie zawiera danych demograficznych.
Rozmiar pliku do pobrania :
249.84 MiB
Rozmiar zestawu danych :
3.89 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 25 000 095 |
- Struktura funkcji :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
gatunek_filmu | Sekwencja (etykieta klasy) | (Nic,) | int64 | |
identyfikator_filmu | Napinacz | strunowy | ||
tytuł filmu | Napinacz | strunowy | ||
znak czasu | Napinacz | int64 | ||
identyfikator użytkownika | Napinacz | strunowy | ||
ocena użytkownika | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
movie_lens/25m-filmy
Opis konfiguracji: ten zestaw danych zawiera dane 62 423 filmów ocenionych w zbiorze danych 25 mln.
Rozmiar pliku do pobrania :
249.84 MiB
Rozmiar zestawu danych :
5.71 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 62423 |
- Struktura funkcji :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
gatunek_filmu | Sekwencja (etykieta klasy) | (Nic,) | int64 | |
identyfikator_filmu | Napinacz | strunowy | ||
tytuł filmu | Napinacz | strunowy |
- Przykłady ( tfds.as_dataframe ):
movie_lens/najnowsze-małe-oceny
- Opis konfiguracji: ten zestaw danych zawiera 100 836 ocen 9742 filmów utworzonych przez 610 użytkowników między 29 marca 1996 r. a 24 września 2018 r. Ten zestaw danych został wygenerowany 26 września 2018 r. i jest podzbiorem pełnej najnowszej wersji zestawu danych MovieLens . Ten zestaw danych jest zmieniany i aktualizowany w miarę upływu czasu.
Każdy użytkownik ocenił co najmniej 20 filmów. Oceny podawane są w odstępach półgwiazdkowych. Ten zbiór danych nie zawiera danych demograficznych.
Rozmiar pliku do pobrania :
955.28 KiB
Rozmiar zestawu danych :
15.82 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 100 836 |
- Struktura funkcji :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
gatunek_filmu | Sekwencja (etykieta klasy) | (Nic,) | int64 | |
identyfikator_filmu | Napinacz | strunowy | ||
tytuł filmu | Napinacz | strunowy | ||
znak czasu | Napinacz | int64 | ||
identyfikator użytkownika | Napinacz | strunowy | ||
ocena użytkownika | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
movie_lens/najnowsze-małe-filmy
Opis konfiguracji : ten zestaw danych zawiera dane 9742 filmów ocenionych w najnowszym małym zbiorze danych.
Rozmiar pliku do pobrania :
955.28 KiB
Rozmiar zbioru danych :
910.64 KiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 9742 |
- Struktura funkcji :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
gatunek_filmu | Sekwencja (etykieta klasy) | (Nic,) | int64 | |
identyfikator_filmu | Napinacz | strunowy | ||
tytuł filmu | Napinacz | strunowy |
- Przykłady ( tfds.as_dataframe ):
movie_lens/100k-oceny
- Opis konfiguracji : Ten zestaw danych zawiera 100 000 ocen 943 użytkowników 1682 filmów. Ten zestaw danych jest najstarszą wersją zestawu danych MovieLens.
Każdy użytkownik ocenił co najmniej 20 filmów. Oceny podawane są w pełnych gwiazdkach. Ten zestaw danych zawiera dane demograficzne użytkowników oprócz danych o filmach i ocenach.
Rozmiar pliku do pobrania :
4.70 MiB
Rozmiar zestawu danych :
32.41 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 100 000 |
- Struktura funkcji :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
Bucketized_user_age | Napinacz | pływak32 | ||
gatunek_filmu | Sekwencja (etykieta klasy) | (Nic,) | int64 | |
identyfikator_filmu | Napinacz | strunowy | ||
tytuł filmu | Napinacz | strunowy | ||
raw_user_age | Napinacz | pływak32 | ||
znak czasu | Napinacz | int64 | ||
płeć_użytkownika | Napinacz | bool | ||
identyfikator użytkownika | Napinacz | strunowy | ||
etykieta_zawodu_użytkownika | Etykieta klasy | int64 | ||
tekst_zawodu_użytkownika | Napinacz | strunowy | ||
ocena użytkownika | Napinacz | pływak32 | ||
kod_zip_użytkownika | Napinacz | strunowy |
- Przykłady ( tfds.as_dataframe ):
film_obiektyw/100k-filmów
Opis konfiguracji : ten zestaw danych zawiera dane 1682 filmów ocenionych w zbiorze danych 100 000.
Rozmiar pliku do pobrania :
4.70 MiB
Rozmiar zestawu danych :
150.35 KiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 1682 |
- Struktura funkcji :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
gatunek_filmu | Sekwencja (etykieta klasy) | (Nic,) | int64 | |
identyfikator_filmu | Napinacz | strunowy | ||
tytuł filmu | Napinacz | strunowy |
- Przykłady ( tfds.as_dataframe ):
movie_lens/1m-oceny
- Opis konfiguracji: ten zestaw danych zawiera 1 000 209 anonimowych ocen około 3900 filmów stworzonych przez 6040 użytkowników MovieLens, którzy dołączyli do MovieLens w
- Ten zestaw danych jest największym zestawem danych, który zawiera dane demograficzne.
Każdy użytkownik ocenił co najmniej 20 filmów. Oceny podawane są w pełnych gwiazdkach. W danych demograficznych wartości wieku są podzielone na przedziały, a zamiast rzeczywistych wartości w danych używana jest najniższa wartość wieku dla każdego przedziału.
Rozmiar pliku do pobrania :
5.64 MiB
Rozmiar zestawu danych :
308.42 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 1 000 209 |
- Struktura funkcji :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
Bucketized_user_age | Napinacz | pływak32 | ||
gatunek_filmu | Sekwencja (etykieta klasy) | (Nic,) | int64 | |
identyfikator_filmu | Napinacz | strunowy | ||
tytuł filmu | Napinacz | strunowy | ||
znak czasu | Napinacz | int64 | ||
płeć_użytkownika | Napinacz | bool | ||
identyfikator użytkownika | Napinacz | strunowy | ||
etykieta_zawodu_użytkownika | Etykieta klasy | int64 | ||
tekst_zawodu_użytkownika | Napinacz | strunowy | ||
ocena użytkownika | Napinacz | pływak32 | ||
kod_zip_użytkownika | Napinacz | strunowy |
- Przykłady ( tfds.as_dataframe ):
film_obiektyw/1m-filmów
Opis konfiguracji : ten zestaw danych zawiera dane około 3900 filmów ocenionych w 1m zbiorze danych.
Rozmiar pliku do pobrania :
5.64 MiB
Rozmiar zbioru danych :
351.12 KiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 3883 |
- Struktura funkcji :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
gatunek_filmu | Sekwencja (etykieta klasy) | (Nic,) | int64 | |
identyfikator_filmu | Napinacz | strunowy | ||
tytuł filmu | Napinacz | strunowy |
- Przykłady ( tfds.as_dataframe ):
movie_lens/20m-oceny
- Opis konfiguracji: Ten zestaw danych zawiera 20 000 263 ocen 27 278 filmów utworzonych przez 138 493 użytkowników między 9 stycznia 1995 r. a 31 marca 2015 r. Ten zestaw danych został wygenerowany 17 października 2016 r.
Każdy użytkownik ocenił co najmniej 20 filmów. Oceny są w krokach co pół gwiazdki. Ten zbiór danych nie zawiera danych demograficznych.
Rozmiar pliku do pobrania :
189.50 MiB
Rozmiar zestawu danych :
3.10 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 20 000 263 |
- Struktura funkcji :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
gatunek_filmu | Sekwencja (etykieta klasy) | (Nic,) | int64 | |
identyfikator_filmu | Napinacz | strunowy | ||
tytuł filmu | Napinacz | strunowy | ||
znak czasu | Napinacz | int64 | ||
identyfikator użytkownika | Napinacz | strunowy | ||
ocena użytkownika | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
movie_lens/20m-filmy
Opis konfiguracji: Ten zestaw danych zawiera dane 27 278 filmów ocenionych w zbiorze danych 20 m
Rozmiar pliku do pobrania :
189.50 MiB
Rozmiar zestawu danych :
2.55 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 27278 |
- Struktura funkcji :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
gatunek_filmu | Sekwencja (etykieta klasy) | (Nic,) | int64 | |
identyfikator_filmu | Napinacz | strunowy | ||
tytuł filmu | Napinacz | strunowy |
- Przykłady ( tfds.as_dataframe ):