- 설명 :
이 데이터 세트에는 영화 추천 서비스인 MovieLens 웹사이트의 영화 등급 세트가 포함되어 있습니다. 이 데이터 세트는 미네소타 대학의 연구 그룹인 GroupLens 에서 수집 및 유지 관리했습니다. "25m", "latest-small", "100k", "1m", "20m"의 5가지 버전이 포함되어 있습니다. 모든 데이터 세트에서 영화 데이터와 등급 데이터는 "movieId"에 결합됩니다. 25m 데이터 세트, 최신 작은 데이터 세트 및 20m 데이터 세트에는 영화 데이터 및 등급 데이터만 포함됩니다. 1m 데이터 세트와 100k 데이터 세트에는 영화 및 등급 데이터 외에 인구 통계 데이터가 포함되어 있습니다.
- "25m": 이것은 MovieLens 데이터 세트의 최신 안정 버전입니다. 연구 목적으로 권장됩니다.
- "latest-small": MovieLens 데이터 세트 최신 버전의 작은 하위 집합입니다. 시간이 지남에 따라 GroupLens에 의해 변경되고 업데이트됩니다.
- "100k": 이것은 MovieLens 데이터 세트의 가장 오래된 버전입니다. 인구 통계 데이터가 있는 작은 데이터 세트입니다.
- "1m": 인구 통계 데이터를 포함하는 가장 큰 MovieLens 데이터 세트입니다.
- "20m": 1m 데이터 세트와 함께 학술 논문에서 가장 많이 사용되는 MovieLens 데이터 세트 중 하나입니다.
각 버전에 대해 사용자는 "-movies" 접미사(예: "25m-movies")를 추가하여 영화 데이터만 보거나 영화 데이터와 결합된 등급 데이터(및 1m 및 100k 데이터 세트의 사용자 데이터)를 추가하여 볼 수 있습니다. "-등급" 접미사(예: "25m-등급").
아래 기능은 "-ratings" 접미사가 있는 모든 버전에 포함되어 있습니다.
- "movie_id": 평가된 영화의 고유 식별자
- "movie_title": 괄호 안에 개봉 연도가 포함된 평가 영화의 제목
- "movie_genres": 평가된 영화가 속하는 일련의 장르
- "user_id": 등급을 매긴 사용자의 고유 식별자
- "user_rating": 별점 5개 등급 점수
- "timestamp": 1970년 1월 1일 UTC(Coordinated Universal Time) 자정 이후 초 단위로 표시되는 등급의 타임스탬프
"100k-ratings" 및 "1m-ratings" 버전에는 다음과 같은 인구통계학적 특징이 추가로 포함됩니다.
- "user_gender": 등급을 매긴 사용자의 성별; 참값은 남성에 해당합니다.
- "bucketized_user_age": 등급을 매긴 사용자의 버킷화된 연령 값, 값 및 해당 범위는 다음과 같습니다.
- 1: "18세 미만"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
- "user_occupation_label": 정수로 인코딩된 레이블로 표시된 등급을 만든 사용자의 직업 레이블은 여러 버전에서 일관되도록 전처리됩니다.
- "user_occupation_text": 원래 문자열에서 등급을 매긴 사용자의 직업 다른 버전은 다른 원시 텍스트 레이블 세트를 가질 수 있습니다.
- "user_zip_code": 등급을 매긴 사용자의 우편번호
또한 "100k-ratings" 데이터 세트에는 평가를 만든 사용자의 정확한 연령인 "raw_user_age" 기능도 있습니다.
"-movies" 접미사가 있는 데이터 세트에는 "movie_id", "movie_title" 및 "movie_genres" 기능만 포함됩니다.
소스 코드 :
tfds.structured.Movielens
버전 :
-
0.1.1
(기본값): 릴리스 정보가 없습니다.
-
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movielens/25m-ratings(기본 구성)
- 구성 설명 : 이 데이터 세트에는 1995년 1월 9일부터 11월 21일 사이에 162,541명의 사용자가 만든 62,423편의 영화에 대한 25,000,095개의 평가가 포함되어 있습니다.
- 이 데이터 세트는 2019년 11월 21일에 생성된 MovieLens 데이터 세트의 최신 안정 버전입니다.
각 사용자는 최소 20편의 영화를 평가했습니다. 등급은 별 반개 단위로 표시됩니다. 이 데이터 세트에는 인구 통계 데이터가 포함되어 있지 않습니다.
다운로드 크기 :
249.84 MiB
데이터세트 크기 :
3.89 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 25,000,095 |
- 기능 구조 :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
movie_genres | 시퀀스(클래스 레이블) | (없음,) | int64 | |
movie_id | 텐서 | 끈 | ||
영화 제목 | 텐서 | 끈 | ||
타임스탬프 | 텐서 | int64 | ||
user_id | 텐서 | 끈 | ||
사용자 평가 | 텐서 | float32 |
- 예 ( tfds.as_dataframe ):
영화 렌즈/25m 영화
구성 설명 : 이 데이터 세트에는 25m 데이터 세트에서 평가된 62,423개의 영화 데이터가 포함되어 있습니다.
다운로드 크기 :
249.84 MiB
데이터 세트 크기 :
5.71 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 62,423 |
- 기능 구조 :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
movie_genres | 시퀀스(클래스 레이블) | (없음,) | int64 | |
movie_id | 텐서 | 끈 | ||
영화 제목 | 텐서 | 끈 |
- 예 ( tfds.as_dataframe ):
movielens/latest-small-ratings
- 구성 설명 : 이 데이터 세트에는 1996년 3월 29일부터 2018년 9월 24일 사이에 610명의 사용자가 만든 9,742편의 영화에 대한 100,836개의 등급이 포함되어 있습니다. 이 데이터 세트는 2018년 9월 26일에 생성되었으며 MovieLens 데이터 세트의 전체 최신 버전의 하위 집합입니다. . 이 데이터 세트는 시간이 지남에 따라 변경 및 업데이트됩니다.
각 사용자는 최소 20편의 영화를 평가했습니다. 등급은 별 반개 단위로 표시됩니다. 이 데이터 세트에는 인구 통계 데이터가 포함되어 있지 않습니다.
다운로드 크기 :
955.28 KiB
데이터 세트 크기 :
15.82 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 100,836 |
- 기능 구조 :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
movie_genres | 시퀀스(클래스 레이블) | (없음,) | int64 | |
movie_id | 텐서 | 끈 | ||
영화 제목 | 텐서 | 끈 | ||
타임스탬프 | 텐서 | int64 | ||
user_id | 텐서 | 끈 | ||
사용자 평가 | 텐서 | float32 |
- 예 ( tfds.as_dataframe ):
movielens/최신 작은 영화
구성 설명 : 이 데이터 세트에는 최신 소규모 데이터 세트에서 평가된 9,742편의 영화 데이터가 포함되어 있습니다.
다운로드 크기 :
955.28 KiB
데이터 세트 크기 :
910.64 KiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 9,742 |
- 기능 구조 :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
movie_genres | 시퀀스(클래스 레이블) | (없음,) | int64 | |
movie_id | 텐서 | 끈 | ||
영화 제목 | 텐서 | 끈 |
- 예 ( tfds.as_dataframe ):
무비렌즈/100k-등급
- 구성 설명 : 이 데이터 세트에는 1,682개의 영화에 대한 943명의 사용자의 100,000개 평가가 포함되어 있습니다. 이 데이터 세트는 MovieLens 데이터 세트의 가장 오래된 버전입니다.
각 사용자는 최소 20편의 영화를 평가했습니다. 등급은 전체 별 단위로 증가합니다. 이 데이터 세트에는 영화 및 등급 데이터 외에도 사용자의 인구 통계 데이터가 포함되어 있습니다.
다운로드 크기 :
4.70 MiB
데이터 세트 크기 :
32.41 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 100,000 |
- 기능 구조 :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
bucketized_user_age | 텐서 | float32 | ||
movie_genres | 시퀀스(클래스 레이블) | (없음,) | int64 | |
movie_id | 텐서 | 끈 | ||
영화 제목 | 텐서 | 끈 | ||
raw_user_age | 텐서 | float32 | ||
타임스탬프 | 텐서 | int64 | ||
user_gender | 텐서 | 부울 | ||
user_id | 텐서 | 끈 | ||
user_occupation_label | 클래스 레이블 | int64 | ||
user_occupation_text | 텐서 | 끈 | ||
사용자 평가 | 텐서 | float32 | ||
user_zip_code | 텐서 | 끈 |
- 예 ( tfds.as_dataframe ):
무비 렌즈/10만 영화
구성 설명 : 이 데이터 세트에는 100k 데이터 세트에서 평가된 1,682개의 영화 데이터가 포함되어 있습니다.
다운로드 크기 :
4.70 MiB
데이터 세트 크기 :
150.35 KiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 1,682 |
- 기능 구조 :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
movie_genres | 시퀀스(클래스 레이블) | (없음,) | int64 | |
movie_id | 텐서 | 끈 | ||
영화 제목 | 텐서 | 끈 |
- 예 ( tfds.as_dataframe ):
무비렌즈/1m 등급
- 구성 설명 : 이 데이터 세트에는 MovieLens에 가입한 6,040명의 MovieLens 사용자가 만든 약 3,900편의 영화에 대한 1,000,209개의 익명 평가가 포함되어 있습니다.
- 이 데이터 세트는 인구 통계 데이터를 포함하는 가장 큰 데이터 세트입니다.
각 사용자는 최소 20편의 영화를 평가했습니다. 등급은 전체 별 단위로 증가합니다. 인구통계학적 데이터에서 연령 값을 범위로 나누어 각 범위의 최저 연령 값을 실제 값 대신 데이터에 사용합니다.
다운로드 크기 :
5.64 MiB
데이터 세트 크기 :
308.42 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 1,000,209 |
- 기능 구조 :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
bucketized_user_age | 텐서 | float32 | ||
movie_genres | 시퀀스(클래스 레이블) | (없음,) | int64 | |
movie_id | 텐서 | 끈 | ||
영화 제목 | 텐서 | 끈 | ||
타임스탬프 | 텐서 | int64 | ||
user_gender | 텐서 | 부울 | ||
user_id | 텐서 | 끈 | ||
user_occupation_label | 클래스 레이블 | int64 | ||
user_occupation_text | 텐서 | 끈 | ||
사용자 평가 | 텐서 | float32 | ||
user_zip_code | 텐서 | 끈 |
- 예 ( tfds.as_dataframe ):
영화 렌즈/1m 영화
구성 설명 : 이 데이터 세트에는 1m 데이터 세트에서 평가된 약 3,900편의 영화 데이터가 포함되어 있습니다.
다운로드 크기 :
5.64 MiB
데이터 세트 크기 :
351.12 KiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 3,883 |
- 기능 구조 :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
movie_genres | 시퀀스(클래스 레이블) | (없음,) | int64 | |
movie_id | 텐서 | 끈 | ||
영화 제목 | 텐서 | 끈 |
- 예 ( tfds.as_dataframe ):
무비렌즈/20m 등급
- 구성 설명 : 이 데이터 세트에는 1995년 1월 9일부터 2015년 3월 31일 사이에 138,493명의 사용자가 만든 27,278편의 영화에 대한 20,000,263개의 평가가 포함되어 있습니다. 이 데이터 세트는 2016년 10월 17일에 생성되었습니다.
각 사용자는 최소 20편의 영화를 평가했습니다. 등급은 별 반개 단위로 표시됩니다. 이 데이터 세트에는 인구 통계 데이터가 포함되어 있지 않습니다.
다운로드 크기 :
189.50 MiB
데이터세트 크기 :
3.10 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 20,000,263 |
- 기능 구조 :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
movie_genres | 시퀀스(클래스 레이블) | (없음,) | int64 | |
movie_id | 텐서 | 끈 | ||
영화 제목 | 텐서 | 끈 | ||
타임스탬프 | 텐서 | int64 | ||
user_id | 텐서 | 끈 | ||
사용자 평가 | 텐서 | float32 |
- 예 ( tfds.as_dataframe ):
무비렌즈/20m-영화
구성 설명 : 이 데이터 세트에는 20m 데이터 세트에서 평가된 27,278개의 영화 데이터가 포함되어 있습니다.
다운로드 크기 :
189.50 MiB
데이터 세트 크기 :
2.55 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 27,278 |
- 기능 구조 :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
movie_genres | 시퀀스(클래스 레이블) | (없음,) | int64 | |
movie_id | 텐서 | 끈 | ||
영화 제목 | 텐서 | 끈 |
- 예 ( tfds.as_dataframe ):