mslr_web

  • Descriptif :

MSLR-WEB sont deux ensembles de données Learning-to-Rank à grande échelle publiés par Microsoft Research. Le premier jeu de données (appelé "30k") contient 30 000 requêtes et le deuxième jeu de données (appelé "10k") contient 10 000 requêtes. Chaque ensemble de données se compose de paires requête-document représentées sous forme de vecteurs de caractéristiques et d'étiquettes de jugement de pertinence correspondantes.

Vous pouvez spécifier si vous souhaitez utiliser la version "10k" ou "30k" de l'ensemble de données, et un pli correspondant, comme suit :

ds = tfds.load("mslr_web/30k_fold1")

Si seul mslr_web est spécifié, l'option mslr_web/10k_fold1 est sélectionnée par défaut :

# This is the same as `tfds.load("mslr_web/10k_fold1")`
ds = tfds.load("mslr_web")
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 136), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
doc_id Tenseur (Aucun,) int64
float_features Tenseur (Aucun, 136) float64
étiquette Tenseur (Aucun,) float64
ID_requête Texte chaîne
@article{DBLP:journals/corr/QinL13,
  author    = {Tao Qin and Tie{-}Yan Liu},
  title     = {Introducing {LETOR} 4.0 Datasets},
  journal   = {CoRR},
  volume    = {abs/1306.2597},
  year      = {2013},
  url       = {http://arxiv.org/abs/1306.2597},
  timestamp = {Mon, 01 Jul 2013 20:31:25 +0200},
  biburl    = {http://dblp.uni-trier.de/rec/bib/journals/corr/QinL13},
  bibsource = {dblp computer science bibliography, http://dblp.org}
}

mslr_web/10k_fold1 (configuration par défaut)

  • Taille du téléchargement : 1.15 GiB

  • Taille du jeu de données : 310.08 MiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 6 000
'vali' 2 000

mslr_web/10k_fold2

  • Taille du téléchargement : 1.15 GiB

  • Taille du jeu de données : 310.08 MiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 6 000
'vali' 2 000

mslr_web/10k_fold3

  • Taille du téléchargement : 1.15 GiB

  • Taille du jeu de données : 310.08 MiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 6 000
'vali' 2 000

mslr_web/10k_fold4

  • Taille du téléchargement : 1.15 GiB

  • Taille du jeu de données : 310.08 MiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 6 000
'vali' 2 000

mslr_web/10k_fold5

  • Taille du téléchargement : 1.15 GiB

  • Taille du jeu de données : 310.08 MiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 6 000
'vali' 2 000

mslr_web/30k_fold1

  • Taille du téléchargement : 3.59 GiB

  • Taille du jeu de données : 964.09 MiB

  • Fractionnements :

Diviser Exemples
'test' 6 306
'train' 18 919
'vali' 6 306

mslr_web/30k_fold2

  • Taille du téléchargement : 3.59 GiB

  • Taille du jeu de données : 964.09 MiB

  • Fractionnements :

Diviser Exemples
'test' 6 307
'train' 18 918
'vali' 6 306

mslr_web/30k_fold3

  • Taille du téléchargement : 3.59 GiB

  • Taille du jeu de données : 964.09 MiB

  • Fractionnements :

Diviser Exemples
'test' 6 306
'train' 18 918
'vali' 6 307

mslr_web/30k_fold4

  • Taille du téléchargement : 3.59 GiB

  • Taille du jeu de données : 964.09 MiB

  • Fractionnements :

Diviser Exemples
'test' 6 306
'train' 18 919
'vali' 6 306

mslr_web/30k_fold5

  • Taille du téléchargement : 3.59 GiB

  • Taille du jeu de données : 964.09 MiB

  • Fractionnements :

Diviser Exemples
'test' 6 306
'train' 18 919
'vali' 6 306