- Descripción :
Los conjuntos de datos de Istella son tres conjuntos de datos de aprendizaje para clasificar a gran escala publicados por Istella. Cada conjunto de datos consta de pares de consulta-documento representados como vectores de características y etiquetas de juicio de relevancia correspondientes.
El conjunto de datos contiene tres versiones:
-
main
("Istella LETOR"): Contiene 10.454.629 pares de consulta-documento. -
s
("Istella-S LETOR"): Contiene 3.408.630 pares consulta-documento. -
x
("Istella-X LETOR"): Contiene 26.791.447 pares consulta-documento.
Puede especificar si usar la versión main
, s
o x
del conjunto de datos de la siguiente manera:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Si solo se especifica istella
, la opción istella/main
se selecciona de forma predeterminada:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Página de inicio: http://quickrank.isti.cnr.it/istella-dataset/
Código fuente :
tfds.ranking.istella.Istella
Versiones :
-
1.0.0
: Versión inicial. -
1.0.1
: corrige la serialización para admitir float64. -
1.1.0
: Agrupe funciones en una sola función 'float_features'. -
1.2.0
(predeterminado): agregue identificadores de consultas y documentos.
-
Almacenamiento automático en caché ( documentación ): No
Estructura de características :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ID_doc | Tensor | (Ninguno,) | int64 | |
funciones_flotantes | Tensor | (Ninguno, 220) | flotar64 | |
etiqueta | Tensor | (Ninguno,) | flotar64 | |
consulta_id | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
isstella/main (configuración predeterminada)
Tamaño de descarga :
1.20 GiB
Tamaño del conjunto de datos :
1.12 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 9,799 |
'train' | 23,219 |
- Ejemplos ( tfds.as_dataframe ):
istel/s
Tamaño de la descarga :
450.26 MiB
Tamaño del conjunto de datos :
421.88 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 6,562 |
'train' | 19,245 |
'vali' | 7,211 |
- Ejemplos ( tfds.as_dataframe ):
istella/x
Tamaño de descarga :
4.42 GiB
Tamaño del conjunto de datos :
2.46 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):
- Descripción :
Los conjuntos de datos de Istella son tres conjuntos de datos de aprendizaje para clasificar a gran escala publicados por Istella. Cada conjunto de datos consta de pares de consulta-documento representados como vectores de características y etiquetas de juicio de relevancia correspondientes.
El conjunto de datos contiene tres versiones:
-
main
("Istella LETOR"): Contiene 10.454.629 pares de consulta-documento. -
s
("Istella-S LETOR"): Contiene 3.408.630 pares consulta-documento. -
x
("Istella-X LETOR"): Contiene 26.791.447 pares consulta-documento.
Puede especificar si usar la versión main
, s
o x
del conjunto de datos de la siguiente manera:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Si solo se especifica istella
, la opción istella/main
se selecciona de forma predeterminada:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Página de inicio: http://quickrank.isti.cnr.it/istella-dataset/
Código fuente :
tfds.ranking.istella.Istella
Versiones :
-
1.0.0
: Versión inicial. -
1.0.1
: corrige la serialización para admitir float64. -
1.1.0
: Agrupe funciones en una sola función 'float_features'. -
1.2.0
(predeterminado): agregue identificadores de consultas y documentos.
-
Almacenamiento automático en caché ( documentación ): No
Estructura de características :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ID_doc | Tensor | (Ninguno,) | int64 | |
funciones_flotantes | Tensor | (Ninguno, 220) | flotar64 | |
etiqueta | Tensor | (Ninguno,) | flotar64 | |
consulta_id | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
isstella/main (configuración predeterminada)
Tamaño de descarga :
1.20 GiB
Tamaño del conjunto de datos :
1.12 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 9,799 |
'train' | 23,219 |
- Ejemplos ( tfds.as_dataframe ):
istel/s
Tamaño de la descarga :
450.26 MiB
Tamaño del conjunto de datos :
421.88 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 6,562 |
'train' | 19,245 |
'vali' | 7,211 |
- Ejemplos ( tfds.as_dataframe ):
istella/x
Tamaño de descarga :
4.42 GiB
Tamaño del conjunto de datos :
2.46 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- Ejemplos ( tfds.as_dataframe ):