- Descripción :
El conjunto de datos de Yahoo Learning to Rank Challenge (también llamado "C14") es un conjunto de datos de aprendizaje para clasificar publicado por Yahoo. El conjunto de datos consta de pares de consulta-documento representados como vectores de características y etiquetas de juicio de relevancia correspondientes.
El conjunto de datos contiene dos versiones:
-
set1
: Contiene 709,877 pares de consulta-documento. -
set2
: Contiene 172.870 pares de consulta-documento.
Puede especificar si usar la versión set1
o set2
del conjunto de datos de la siguiente manera:
ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")
Si solo se especifica yahoo_ltrc
, la opción yahoo_ltrc/set1
se selecciona de forma predeterminada:
# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
Página de inicio: https://research.yahoo.com/datasets
Código fuente :
tfds.ranking.yahoo_ltrc.YahooLTRC
Versiones :
-
1.0.0
: Versión inicial. -
1.1.0
(predeterminado): agrega identificadores de consultas y documentos.
-
Tamaño de descarga :
Unknown size
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Solicite acceso al conjunto de datos C14 Yahoo Learning To Rank Challenge en https://research.yahoo.com/datasets Extraiga el archivodataset.tgz
descargado y coloque el archivoltrc_yahoo.tar.bz2
enmanual_dir/
.Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@inproceedings{chapelle2011yahoo,
title={Yahoo! learning to rank challenge overview},
author={Chapelle, Olivier and Chang, Yi},
booktitle={Proceedings of the learning to rank challenge},
pages={1--24},
year={2011},
organization={PMLR}
}
yahoo_ltrc/set1 (configuración predeterminada)
Tamaño del conjunto de datos :
795.39 MiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 6,983 |
'train' | 19,944 |
'vali' | 2,994 |
- Estructura de características :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 699), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ID_doc | Tensor | (Ninguno,) | int64 | |
funciones_flotantes | Tensor | (Ninguno, 699) | flotar64 | |
etiqueta | Tensor | (Ninguno,) | flotar64 | |
consulta_id | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):
yahoo_ltrc/set2
Tamaño del conjunto de datos :
194.92 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 3,798 |
'train' | 1,266 |
'vali' | 1,266 |
- Estructura de características :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 700), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ID_doc | Tensor | (Ninguno,) | int64 | |
funciones_flotantes | Tensor | (Ninguno, 700) | flotar64 | |
etiqueta | Tensor | (Ninguno,) | flotar64 | |
consulta_id | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):