- Descrizione :
I set di dati Istella sono tre set di dati Learning-to-Rank su larga scala rilasciati da Istella. Ogni set di dati è costituito da coppie query-documento rappresentate come vettori di caratteristiche e corrispondenti etichette di giudizio di pertinenza.
Il set di dati contiene tre versioni:
-
main
("Istella LETOR"): contenente 10.454.629 coppie query-documento. -
s
("Istella-S LETOR"): contenente 3.408.630 coppie query-documento. -
x
("Istella-X LETOR"): contenente 26.791.447 coppie query-documento.
È possibile specificare se utilizzare la versione main
, s
o x
del set di dati come segue:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Se viene specificato solo istella
, l'opzione istella/main
è selezionata per impostazione predefinita:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Codice sorgente :
tfds.ranking.istella.Istella
Versioni :
-
1.0.0
: Versione iniziale. -
1.0.1
: correzione della serializzazione per supportare float64. -
1.1.0
: raggruppa le funzionalità in un'unica funzionalità "float_features". -
1.2.0
(predefinito): aggiungere identificatori di query e documento.
-
Cache automatica ( documentazione ): No
Struttura delle caratteristiche :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
doc_id | Tensore | (Nessuno,) | int64 | |
float_features | Tensore | (Nessuno, 220) | galleggiante64 | |
etichetta | Tensore | (Nessuno,) | galleggiante64 | |
query_id | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (configurazione predefinita)
Dimensione del download :
1.20 GiB
Dimensione del set di dati :
1.12 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 9.799 |
'train' | 23.219 |
- Esempi ( tfds.as_dataframe ):
istella/s
Dimensione del download :
450.26 MiB
Dimensione del set di dati:
421.88 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 6.562 |
'train' | 19.245 |
'vali' | 7.211 |
- Esempi ( tfds.as_dataframe ):
istella/x
Dimensione del download :
4.42 GiB
Dimensione del set di dati:
2.46 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 6.000 |
'vali' | 2.000 |
- Esempi ( tfds.as_dataframe ):