- Descriptif :
Les ensembles de données Istella sont trois ensembles de données Learning-to-Rank à grande échelle publiés par Istella. Chaque ensemble de données se compose de paires requête-document représentées sous forme de vecteurs de caractéristiques et d'étiquettes de jugement de pertinence correspondantes.
L'ensemble de données contient trois versions :
-
main
("Istella LETOR") : contenant 10 454 629 paires requête-document. -
s
("Istella-S LETOR") : contenant 3 408 630 paires requête-document. -
x
("Istella-X LETOR") : contenant 26 791 447 paires requête-document.
Vous pouvez spécifier si vous souhaitez utiliser la version main
, s
ou x
du jeu de données comme suit :
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Si seul istella
est spécifié, l'option istella/main
est sélectionnée par défaut :
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Page d' accueil : http://quickrank.isti.cnr.it/istella-dataset/
Code source :
tfds.ranking.istella.Istella
Versions :
-
1.0.0
: Version initiale. -
1.0.1
: Correction de la sérialisation pour supporter float64. -
1.1.0
: Regroupez les fonctionnalités dans une seule fonctionnalité 'float_features'. -
1.2.0
(par défaut) : ajouter des identifiants de requête et de document.
-
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
doc_id | Tenseur | (Aucun,) | int64 | |
float_features | Tenseur | (Aucun, 220) | float64 | |
étiquette | Tenseur | (Aucun,) | float64 | |
ID_requête | Texte | chaîne |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (configuration par défaut)
Taille du téléchargement :
1.20 GiB
Taille du jeu de données :
1.12 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 9 799 |
'train' | 23 219 |
- Exemples ( tfds.as_dataframe ):
istella/s
Taille du téléchargement :
450.26 MiB
Taille du jeu de données :
421.88 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 562 |
'train' | 19 245 |
'vali' | 7 211 |
- Exemples ( tfds.as_dataframe ):
isla/x
Taille du téléchargement :
4.42 GiB
Taille du jeu de données :
2.46 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 6 000 |
'vali' | 2 000 |
- Exemples ( tfds.as_dataframe ):