- Açıklama :
Bu veri kümesi, bir film tavsiye hizmeti olan MovieLens web sitesinden bir dizi film derecelendirmesi içerir. Bu veri seti, Minnesota Üniversitesi'ndeki bir araştırma grubu olan GroupLens tarafından toplandı ve sürdürüldü. Dahil edilen 5 versiyon vardır: "25m", "en son-küçük", "100k", "1m", "20m". Tüm veri kümelerinde, film verileri ve derecelendirme verileri "movieId" üzerinde birleştirilir. 25m veri seti, en son küçük veri seti ve 20m veri seti yalnızca film verilerini ve derecelendirme verilerini içerir. 1m veri seti ve 100k veri seti, film ve derecelendirme verilerine ek olarak demografik veriler içerir.
- "25m": Bu, MovieLens veri kümesinin en son kararlı sürümüdür. Araştırma amaçlı tavsiye edilir.
- "en son küçük": Bu, MovieLens veri kümesinin en son sürümünün küçük bir alt kümesidir. GroupLens tarafından zaman içinde değiştirilir ve güncellenir.
- "100k": Bu, MovieLens veri kümelerinin en eski sürümüdür. Demografik verileri içeren küçük bir veri kümesidir.
- "1m": Bu, demografik verileri içeren en büyük MovieLens veri kümesidir.
- "20m": Bu, 1m veri kümesiyle birlikte akademik makalelerde en çok kullanılan MovieLens veri kümelerinden biridir.
Kullanıcılar, her sürüm için ya "-movies" son ekini ekleyerek (örn. "25m-movies") yalnızca film verilerini veya film verileriyle birleştirilmiş derecelendirme verilerini (ve 1m ve 100k veri kümelerindeki kullanıcı verilerini) ekleyerek görüntüleyebilir. "-reytingler" soneki (örn. "25m-reytingler").
Aşağıdaki özellikler "-reyting" ekine sahip tüm sürümlerde yer almaktadır.
- "movie_id": derecelendirilen filmin benzersiz tanımlayıcısı
- "movie_title": derecelendirilen filmin başlığı ve çıkış yılı parantez içinde
- "movie_genres": derecelendirilen filmin ait olduğu türler dizisi
- "user_id": derecelendirmeyi yapan kullanıcının benzersiz tanımlayıcısı
- "user_rating": derecelendirmenin beş yıldızlı ölçekteki puanı
- "zaman damgası": 1 Ocak 1970 Eşgüdümlü Evrensel Zaman (UTC) gece yarısından bu yana saniye cinsinden temsil edilen derecelendirmelerin zaman damgası
"100k-reyting" ve "1m-reyting" sürümleri ek olarak aşağıdaki demografik özellikleri içerir.
- "user_gender": derecelendirmeyi yapan kullanıcının cinsiyeti; gerçek bir değer erkeğe karşılık gelir
- "bucketized_user_age": derecelendirmeyi yapan kullanıcının gruplara ayrılmış yaş değerleri, değerler ve karşılık gelen aralıklar şunlardır:
- 1: "18 yaş altı"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
- "user_occupation_label": tamsayı kodlu bir etiketle temsil edilen derecelendirmeyi yapan kullanıcının mesleği; etiketler, farklı sürümlerde tutarlı olacak şekilde önceden işlenir
- "user_occupation_text": orijinal dizide derecelendirmeyi yapan kullanıcının mesleği; farklı sürümler, farklı ham metin etiketleri kümesine sahip olabilir
- "user_zip_code": derecelendirmeyi yapan kullanıcının posta kodu
Ayrıca, "100k-reyting" veri setinde, reytingi yapan kullanıcıların tam yaşları olan "raw_user_age" özelliği de bulunacaktır.
"-movies" son ekine sahip veri kümeleri yalnızca "movie_id", "movie_title" ve "movie_genres" özelliklerini içerir.
Ana Sayfa : https://grouplens.org/datasets/movielens/
Kaynak kodu :
tfds.structured.MovieLens
sürümler :
-
0.1.1
(varsayılan): Sürüm notu yok.
-
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movie_lens/25m-reytingleri (varsayılan yapılandırma)
- Yapılandırma açıklaması : Bu veri kümesi, 09 Ocak 1995 ile 21 Kasım arasında 162.541 kullanıcı tarafından oluşturulan 62.423 filmde 25.000.095 derecelendirme içerir.
- Bu veri kümesi, 21 Kasım 2019'da oluşturulan MovieLens veri kümesinin en son kararlı sürümüdür.
Her kullanıcı en az 20 filme oy verdi. Derecelendirmeler yarım yıldızlı artışlarla verilmiştir. Bu veri seti, demografik verileri içermez.
İndirme boyutu :
249.84 MiB
Veri kümesi boyutu :
3.89 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 25.000.095 |
- Özellik yapısı :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
film_türleri | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | |
film_kimliği | tensör | sicim | ||
film başlığı | tensör | sicim | ||
zaman damgası | tensör | int64 | ||
Kullanıcı kimliği | tensör | sicim | ||
Kullanıcı oyu | tensör | şamandıra32 |
- Örnekler ( tfds.as_dataframe ):
movie_lens/25m-filmler
Yapılandırma açıklaması : Bu veri kümesi, 25m veri kümesinde derecelendirilen 62.423 filmin verilerini içerir.
İndirme boyutu :
249.84 MiB
Veri kümesi boyutu :
5.71 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 62.423 |
- Özellik yapısı :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
film_türleri | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | |
film_kimliği | tensör | sicim | ||
film başlığı | tensör | sicim |
- Örnekler ( tfds.as_dataframe ):
movie_lens/son-küçük-derecelendirmeler
- Yapılandırma açıklaması : Bu veri kümesi, 29 Mart 1996 ile 24 Eylül 2018 arasında 610 kullanıcı tarafından oluşturulan 9.742 filmde 100.836 derecelendirme içerir. Bu veri kümesi, 26 Eylül 2018'de oluşturulmuştur ve MovieLens veri kümesinin en son sürümünün bir alt kümesidir . Bu veri seti zamanla değiştirilir ve güncellenir.
Her kullanıcı en az 20 filme oy verdi. Derecelendirmeler yarım yıldızlı artışlarla verilmiştir. Bu veri seti, demografik verileri içermez.
İndirme boyutu :
955.28 KiB
Veri kümesi boyutu :
15.82 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 100.836 |
- Özellik yapısı :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
film_türleri | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | |
film_kimliği | tensör | sicim | ||
film başlığı | tensör | sicim | ||
zaman damgası | tensör | int64 | ||
Kullanıcı kimliği | tensör | sicim | ||
Kullanıcı oyu | tensör | şamandıra32 |
- Örnekler ( tfds.as_dataframe ):
movie_lens/son-küçük-filmler
Yapılandırma açıklaması : Bu veri kümesi, en son küçük veri kümesinde derecelendirilen 9.742 filmin verilerini içerir.
İndirme boyutu :
955.28 KiB
Veri kümesi boyutu :
910.64 KiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 9.742 |
- Özellik yapısı :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
film_türleri | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | |
film_kimliği | tensör | sicim | ||
film başlığı | tensör | sicim |
- Örnekler ( tfds.as_dataframe ):
movie_lens/100k derecelendirme
- Yapılandırma açıklaması : Bu veri kümesi, 1.682 filmde 943 kullanıcıdan alınan 100.000 derecelendirme içerir. Bu veri kümesi, MovieLens veri kümesinin en eski sürümüdür.
Her kullanıcı en az 20 filme oy verdi. Derecelendirmeler tam yıldız artışlarıyla verilmiştir. Bu veri kümesi, filmlere ve derecelendirmelere ilişkin verilere ek olarak kullanıcıların demografik verilerini içerir.
İndirme boyutu :
4.70 MiB
Veri kümesi boyutu :
32.41 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 100.000 |
- Özellik yapısı :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bucketized_user_age | tensör | şamandıra32 | ||
film_türleri | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | |
film_kimliği | tensör | sicim | ||
film başlığı | tensör | sicim | ||
raw_user_age | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 | ||
user_gender | tensör | bool | ||
Kullanıcı kimliği | tensör | sicim | ||
user_occupation_label | SınıfEtiketi | int64 | ||
user_occupation_text | tensör | sicim | ||
Kullanıcı oyu | tensör | şamandıra32 | ||
user_zip_code | tensör | sicim |
- Örnekler ( tfds.as_dataframe ):
movie_lens/100k-filmler
Yapılandırma açıklaması : Bu veri kümesi, 100.000 veri kümesinde derecelendirilen 1.682 filmin verilerini içerir.
İndirme boyutu :
4.70 MiB
Veri kümesi boyutu :
150.35 KiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 1.682 |
- Özellik yapısı :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
film_türleri | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | |
film_kimliği | tensör | sicim | ||
film başlığı | tensör | sicim |
- Örnekler ( tfds.as_dataframe ):
movie_lens/1 milyon derecelendirme
- Yapılandırma açıklaması : Bu veri kümesi, MovieLens'e katılan 6.040 MovieLens kullanıcısı tarafından yapılan yaklaşık 3.900 filmin 1.000.209 anonim derecelendirmesini içerir.
- Bu veri seti, demografik verileri içeren en büyük veri setidir.
Her kullanıcı en az 20 filme oy verdi. Derecelendirmeler tam yıldız artışlarıyla verilmiştir. Demografik verilerde yaş değerleri aralıklara bölünür ve verilerde gerçek değerler yerine her bir aralık için en düşük yaş değeri kullanılır.
İndirme boyutu :
5.64 MiB
Veri kümesi boyutu :
308.42 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 1.000.209 |
- Özellik yapısı :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bucketized_user_age | tensör | şamandıra32 | ||
film_türleri | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | |
film_kimliği | tensör | sicim | ||
film başlığı | tensör | sicim | ||
zaman damgası | tensör | int64 | ||
user_gender | tensör | bool | ||
Kullanıcı kimliği | tensör | sicim | ||
user_occupation_label | SınıfEtiketi | int64 | ||
user_occupation_text | tensör | sicim | ||
Kullanıcı oyu | tensör | şamandıra32 | ||
user_zip_code | tensör | sicim |
- Örnekler ( tfds.as_dataframe ):
movie_lens/1m-filmler
Yapılandırma açıklaması : Bu veri kümesi, 1m veri kümesinde derecelendirilen yaklaşık 3.900 filmin verilerini içerir.
İndirme boyutu :
5.64 MiB
Veri kümesi boyutu :
351.12 KiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 3.883 |
- Özellik yapısı :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
film_türleri | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | |
film_kimliği | tensör | sicim | ||
film başlığı | tensör | sicim |
- Örnekler ( tfds.as_dataframe ):
movie_lens/20 milyon derecelendirme
- Yapılandırma açıklaması : Bu veri kümesi, 9 Ocak 1995 ile 31 Mart 2015 arasında 138.493 kullanıcı tarafından oluşturulan 27.278 filmde 20.000.263 derecelendirme içerir. Bu veri kümesi 17 Ekim 2016'da oluşturulmuştur.
Her kullanıcı en az 20 filme oy verdi. Derecelendirmeler yarım yıldızlı artışlarla verilmiştir. Bu veri seti demografik veri içermiyor.
İndirme boyutu :
189.50 MiB
Veri kümesi boyutu :
3.10 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 20.000.263 |
- Özellik yapısı :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
film_türleri | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | |
film_kimliği | tensör | sicim | ||
film başlığı | tensör | sicim | ||
zaman damgası | tensör | int64 | ||
Kullanıcı kimliği | tensör | sicim | ||
Kullanıcı oyu | tensör | şamandıra32 |
- Örnekler ( tfds.as_dataframe ):
movie_lens/20m-filmler
Yapılandırma açıklaması : Bu veri kümesi, 20m veri kümesinde derecelendirilen 27.278 filmin verilerini içerir
İndirme boyutu :
189.50 MiB
Veri kümesi boyutu :
2.55 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 27.278 |
- Özellik yapısı :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
film_türleri | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | |
film_kimliği | tensör | sicim | ||
film başlığı | tensör | sicim |
- Örnekler ( tfds.as_dataframe ):