film_lens

  • Açıklama :

Bu veri kümesi, bir film tavsiye hizmeti olan MovieLens web sitesinden bir dizi film derecelendirmesi içerir. Bu veri seti, Minnesota Üniversitesi'ndeki bir araştırma grubu olan GroupLens tarafından toplandı ve sürdürüldü. Dahil edilen 5 versiyon vardır: "25m", "en son-küçük", "100k", "1m", "20m". Tüm veri kümelerinde, film verileri ve derecelendirme verileri "movieId" üzerinde birleştirilir. 25m veri seti, en son küçük veri seti ve 20m veri seti yalnızca film verilerini ve derecelendirme verilerini içerir. 1m veri seti ve 100k veri seti, film ve derecelendirme verilerine ek olarak demografik veriler içerir.

  • "25m": Bu, MovieLens veri kümesinin en son kararlı sürümüdür. Araştırma amaçlı tavsiye edilir.
  • "en son küçük": Bu, MovieLens veri kümesinin en son sürümünün küçük bir alt kümesidir. GroupLens tarafından zaman içinde değiştirilir ve güncellenir.
  • "100k": Bu, MovieLens veri kümelerinin en eski sürümüdür. Demografik verileri içeren küçük bir veri kümesidir.
  • "1m": Bu, demografik verileri içeren en büyük MovieLens veri kümesidir.
  • "20m": Bu, 1m veri kümesiyle birlikte akademik makalelerde en çok kullanılan MovieLens veri kümelerinden biridir.

Kullanıcılar, her sürüm için ya "-movies" son ekini ekleyerek (örn. "25m-movies") yalnızca film verilerini veya film verileriyle birleştirilmiş derecelendirme verilerini (ve 1m ve 100k veri kümelerindeki kullanıcı verilerini) ekleyerek görüntüleyebilir. "-reytingler" soneki (örn. "25m-reytingler").

Aşağıdaki özellikler "-reyting" ekine sahip tüm sürümlerde yer almaktadır.

  • "movie_id": derecelendirilen filmin benzersiz tanımlayıcısı
  • "movie_title": derecelendirilen filmin başlığı ve çıkış yılı parantez içinde
  • "movie_genres": derecelendirilen filmin ait olduğu türler dizisi
  • "user_id": derecelendirmeyi yapan kullanıcının benzersiz tanımlayıcısı
  • "user_rating": derecelendirmenin beş yıldızlı ölçekteki puanı
  • "zaman damgası": 1 Ocak 1970 Eşgüdümlü Evrensel Zaman (UTC) gece yarısından bu yana saniye cinsinden temsil edilen derecelendirmelerin zaman damgası

"100k-reyting" ve "1m-reyting" sürümleri ek olarak aşağıdaki demografik özellikleri içerir.

  • "user_gender": derecelendirmeyi yapan kullanıcının cinsiyeti; gerçek bir değer erkeğe karşılık gelir
  • "bucketized_user_age": derecelendirmeyi yapan kullanıcının gruplara ayrılmış yaş değerleri, değerler ve karşılık gelen aralıklar şunlardır:
    • 1: "18 yaş altı"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": tamsayı kodlu bir etiketle temsil edilen derecelendirmeyi yapan kullanıcının mesleği; etiketler, farklı sürümlerde tutarlı olacak şekilde önceden işlenir
  • "user_occupation_text": orijinal dizide derecelendirmeyi yapan kullanıcının mesleği; farklı sürümler, farklı ham metin etiketleri kümesine sahip olabilir
  • "user_zip_code": derecelendirmeyi yapan kullanıcının posta kodu

Ayrıca, "100k-reyting" veri setinde, reytingi yapan kullanıcıların tam yaşları olan "raw_user_age" özelliği de bulunacaktır.

"-movies" son ekine sahip veri kümeleri yalnızca "movie_id", "movie_title" ve "movie_genres" özelliklerini içerir.

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movie_lens/25m-reytingleri (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Bu veri kümesi, 09 Ocak 1995 ile 21 Kasım arasında 162.541 kullanıcı tarafından oluşturulan 62.423 filmde 25.000.095 derecelendirme içerir.
  • Bu veri kümesi, 21 Kasım 2019'da oluşturulan MovieLens veri kümesinin en son kararlı sürümüdür.

Her kullanıcı en az 20 filme oy verdi. Derecelendirmeler yarım yıldızlı artışlarla verilmiştir. Bu veri seti, demografik verileri içermez.

  • İndirme boyutu : 249.84 MiB

  • Veri kümesi boyutu : 3.89 GiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'train' 25.000.095
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
film_türleri Sıra(SınıfEtiketi) (Hiçbiri,) int64
film_kimliği tensör sicim
film başlığı tensör sicim
zaman damgası tensör int64
Kullanıcı kimliği tensör sicim
Kullanıcı oyu tensör şamandıra32

movie_lens/25m-filmler

  • Yapılandırma açıklaması : Bu veri kümesi, 25m veri kümesinde derecelendirilen 62.423 filmin verilerini içerir.

  • İndirme boyutu : 249.84 MiB

  • Veri kümesi boyutu : 5.71 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 62.423
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
film_türleri Sıra(SınıfEtiketi) (Hiçbiri,) int64
film_kimliği tensör sicim
film başlığı tensör sicim

movie_lens/son-küçük-derecelendirmeler

  • Yapılandırma açıklaması : Bu veri kümesi, 29 Mart 1996 ile 24 Eylül 2018 arasında 610 kullanıcı tarafından oluşturulan 9.742 filmde 100.836 derecelendirme içerir. Bu veri kümesi, 26 Eylül 2018'de oluşturulmuştur ve MovieLens veri kümesinin en son sürümünün bir alt kümesidir . Bu veri seti zamanla değiştirilir ve güncellenir.

Her kullanıcı en az 20 filme oy verdi. Derecelendirmeler yarım yıldızlı artışlarla verilmiştir. Bu veri seti, demografik verileri içermez.

  • İndirme boyutu : 955.28 KiB

  • Veri kümesi boyutu : 15.82 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 100.836
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
film_türleri Sıra(SınıfEtiketi) (Hiçbiri,) int64
film_kimliği tensör sicim
film başlığı tensör sicim
zaman damgası tensör int64
Kullanıcı kimliği tensör sicim
Kullanıcı oyu tensör şamandıra32

movie_lens/son-küçük-filmler

  • Yapılandırma açıklaması : Bu veri kümesi, en son küçük veri kümesinde derecelendirilen 9.742 filmin verilerini içerir.

  • İndirme boyutu : 955.28 KiB

  • Veri kümesi boyutu : 910.64 KiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 9.742
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
film_türleri Sıra(SınıfEtiketi) (Hiçbiri,) int64
film_kimliği tensör sicim
film başlığı tensör sicim

movie_lens/100k derecelendirme

  • Yapılandırma açıklaması : Bu veri kümesi, 1.682 filmde 943 kullanıcıdan alınan 100.000 derecelendirme içerir. Bu veri kümesi, MovieLens veri kümesinin en eski sürümüdür.

Her kullanıcı en az 20 filme oy verdi. Derecelendirmeler tam yıldız artışlarıyla verilmiştir. Bu veri kümesi, filmlere ve derecelendirmelere ilişkin verilere ek olarak kullanıcıların demografik verilerini içerir.

  • İndirme boyutu : 4.70 MiB

  • Veri kümesi boyutu : 32.41 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 100.000
  • Özellik yapısı :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bucketized_user_age tensör şamandıra32
film_türleri Sıra(SınıfEtiketi) (Hiçbiri,) int64
film_kimliği tensör sicim
film başlığı tensör sicim
raw_user_age tensör şamandıra32
zaman damgası tensör int64
user_gender tensör bool
Kullanıcı kimliği tensör sicim
user_occupation_label SınıfEtiketi int64
user_occupation_text tensör sicim
Kullanıcı oyu tensör şamandıra32
user_zip_code tensör sicim

movie_lens/100k-filmler

  • Yapılandırma açıklaması : Bu veri kümesi, 100.000 veri kümesinde derecelendirilen 1.682 filmin verilerini içerir.

  • İndirme boyutu : 4.70 MiB

  • Veri kümesi boyutu : 150.35 KiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 1.682
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
film_türleri Sıra(SınıfEtiketi) (Hiçbiri,) int64
film_kimliği tensör sicim
film başlığı tensör sicim

movie_lens/1 milyon derecelendirme

  • Yapılandırma açıklaması : Bu veri kümesi, MovieLens'e katılan 6.040 MovieLens kullanıcısı tarafından yapılan yaklaşık 3.900 filmin 1.000.209 anonim derecelendirmesini içerir.
  • Bu veri seti, demografik verileri içeren en büyük veri setidir.

Her kullanıcı en az 20 filme oy verdi. Derecelendirmeler tam yıldız artışlarıyla verilmiştir. Demografik verilerde yaş değerleri aralıklara bölünür ve verilerde gerçek değerler yerine her bir aralık için en düşük yaş değeri kullanılır.

  • İndirme boyutu : 5.64 MiB

  • Veri kümesi boyutu : 308.42 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'train' 1.000.209
  • Özellik yapısı :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bucketized_user_age tensör şamandıra32
film_türleri Sıra(SınıfEtiketi) (Hiçbiri,) int64
film_kimliği tensör sicim
film başlığı tensör sicim
zaman damgası tensör int64
user_gender tensör bool
Kullanıcı kimliği tensör sicim
user_occupation_label SınıfEtiketi int64
user_occupation_text tensör sicim
Kullanıcı oyu tensör şamandıra32
user_zip_code tensör sicim

movie_lens/1m-filmler

  • Yapılandırma açıklaması : Bu veri kümesi, 1m veri kümesinde derecelendirilen yaklaşık 3.900 filmin verilerini içerir.

  • İndirme boyutu : 5.64 MiB

  • Veri kümesi boyutu : 351.12 KiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 3.883
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
film_türleri Sıra(SınıfEtiketi) (Hiçbiri,) int64
film_kimliği tensör sicim
film başlığı tensör sicim

movie_lens/20 milyon derecelendirme

  • Yapılandırma açıklaması : Bu veri kümesi, 9 Ocak 1995 ile 31 Mart 2015 arasında 138.493 kullanıcı tarafından oluşturulan 27.278 filmde 20.000.263 derecelendirme içerir. Bu veri kümesi 17 Ekim 2016'da oluşturulmuştur.

Her kullanıcı en az 20 filme oy verdi. Derecelendirmeler yarım yıldızlı artışlarla verilmiştir. Bu veri seti demografik veri içermiyor.

  • İndirme boyutu : 189.50 MiB

  • Veri kümesi boyutu : 3.10 GiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'train' 20.000.263
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
film_türleri Sıra(SınıfEtiketi) (Hiçbiri,) int64
film_kimliği tensör sicim
film başlığı tensör sicim
zaman damgası tensör int64
Kullanıcı kimliği tensör sicim
Kullanıcı oyu tensör şamandıra32

movie_lens/20m-filmler

  • Yapılandırma açıklaması : Bu veri kümesi, 20m veri kümesinde derecelendirilen 27.278 filmin verilerini içerir

  • İndirme boyutu : 189.50 MiB

  • Veri kümesi boyutu : 2.55 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 27.278
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
film_türleri Sıra(SınıfEtiketi) (Hiçbiri,) int64
film_kimliği tensör sicim
film başlığı tensör sicim