- Descriptif :
MSLR-WEB sont deux ensembles de données Learning-to-Rank à grande échelle publiés par Microsoft Research. Le premier jeu de données (appelé "30k") contient 30 000 requêtes et le deuxième jeu de données (appelé "10k") contient 10 000 requêtes. Chaque ensemble de données se compose de paires requête-document représentées sous forme de vecteurs de caractéristiques et d'étiquettes de jugement de pertinence correspondantes.
Vous pouvez spécifier si vous souhaitez utiliser la version "10k" ou "30k" de l'ensemble de données, et un pli correspondant, comme suit :
ds = tfds.load("mslr_web/30k_fold1")
Si seul mslr_web
est spécifié, l'option mslr_web/10k_fold1
est sélectionnée par défaut :
# This is the same as `tfds.load("mslr_web/10k_fold1")`
ds = tfds.load("mslr_web")
Page d' accueil : https://www.microsoft.com/en-us/research/project/mslr/
Code source :
tfds.ranking.mslr_web.MslrWeb
Versions :
-
1.0.0
: Version initiale. -
1.1.0
: Regroupez les fonctionnalités dans une seule fonctionnalité 'float_features'. -
1.2.0
(par défaut) : ajouter des identifiants de requête et de document.
-
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 136), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
doc_id | Tenseur | (Aucun,) | int64 | |
float_features | Tenseur | (Aucun, 136) | float64 | |
étiquette | Tenseur | (Aucun,) | float64 | |
ID_requête | Texte | chaîne |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{DBLP:journals/corr/QinL13,
author = {Tao Qin and Tie{-}Yan Liu},
title = {Introducing {LETOR} 4.0 Datasets},
journal = {CoRR},
volume = {abs/1306.2597},
year = {2013},
url = {http://arxiv.org/abs/1306.2597},
timestamp = {Mon, 01 Jul 2013 20:31:25 +0200},
biburl = {http://dblp.uni-trier.de/rec/bib/journals/corr/QinL13},
bibsource = {dblp computer science bibliography, http://dblp.org}
}
mslr_web/10k_fold1 (configuration par défaut)
Taille du téléchargement :
1.15 GiB
Taille du jeu de données :
310.08 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 6 000 |
'vali' | 2 000 |
- Exemples ( tfds.as_dataframe ):
mslr_web/10k_fold2
Taille du téléchargement :
1.15 GiB
Taille du jeu de données :
310.08 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 6 000 |
'vali' | 2 000 |
- Exemples ( tfds.as_dataframe ):
mslr_web/10k_fold3
Taille du téléchargement :
1.15 GiB
Taille du jeu de données :
310.08 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 6 000 |
'vali' | 2 000 |
- Exemples ( tfds.as_dataframe ):
mslr_web/10k_fold4
Taille du téléchargement :
1.15 GiB
Taille du jeu de données :
310.08 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 6 000 |
'vali' | 2 000 |
- Exemples ( tfds.as_dataframe ):
mslr_web/10k_fold5
Taille du téléchargement :
1.15 GiB
Taille du jeu de données :
310.08 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 6 000 |
'vali' | 2 000 |
- Exemples ( tfds.as_dataframe ):
mslr_web/30k_fold1
Taille du téléchargement :
3.59 GiB
Taille du jeu de données :
964.09 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 306 |
'train' | 18 919 |
'vali' | 6 306 |
- Exemples ( tfds.as_dataframe ):
mslr_web/30k_fold2
Taille du téléchargement :
3.59 GiB
Taille du jeu de données :
964.09 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 307 |
'train' | 18 918 |
'vali' | 6 306 |
- Exemples ( tfds.as_dataframe ):
mslr_web/30k_fold3
Taille du téléchargement :
3.59 GiB
Taille du jeu de données :
964.09 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 306 |
'train' | 18 918 |
'vali' | 6 307 |
- Exemples ( tfds.as_dataframe ):
mslr_web/30k_fold4
Taille du téléchargement :
3.59 GiB
Taille du jeu de données :
964.09 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 306 |
'train' | 18 919 |
'vali' | 6 306 |
- Exemples ( tfds.as_dataframe ):
mslr_web/30k_fold5
Taille du téléchargement :
3.59 GiB
Taille du jeu de données :
964.09 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 306 |
'train' | 18 919 |
'vali' | 6 306 |
- Exemples ( tfds.as_dataframe ):