yahoo_ltrc

  • Descripción :

El conjunto de datos de Yahoo Learning to Rank Challenge (también llamado "C14") es un conjunto de datos de aprendizaje para clasificar publicado por Yahoo. El conjunto de datos consta de pares de consulta-documento representados como vectores de características y etiquetas de juicio de relevancia correspondientes.

El conjunto de datos contiene dos versiones:

  • set1 : Contiene 709,877 pares de consulta-documento.
  • set2 : Contiene 172.870 pares de consulta-documento.

Puede especificar si usar la versión set1 o set2 del conjunto de datos de la siguiente manera:

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

Si solo se especifica yahoo_ltrc , la opción yahoo_ltrc/set1 se selecciona de forma predeterminada:

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • Página de inicio: https://research.yahoo.com/datasets

  • Código fuente : tfds.ranking.yahoo_ltrc.YahooLTRC

  • Versiones :

    • 1.0.0 : Versión inicial.
    • 1.1.0 (predeterminado): agrega identificadores de consultas y documentos.
  • Tamaño de descarga : Unknown size

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Solicite acceso al conjunto de datos C14 Yahoo Learning To Rank Challenge en https://research.yahoo.com/datasets Extraiga el archivo dataset.tgz descargado y coloque el archivo ltrc_yahoo.tar.bz2 en manual_dir/ .

  • Claves supervisadas (Ver as_supervised doc ): None

  • Figura ( tfds.show_examples ): no compatible.

  • Cita :

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc/set1 (configuración predeterminada)

  • Tamaño del conjunto de datos : 795.39 MiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'test' 6,983
'train' 19,944
'vali' 2,994
  • Estructura de características :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
ID_doc Tensor (Ninguno,) int64
funciones_flotantes Tensor (Ninguno, 699) flotar64
etiqueta Tensor (Ninguno,) flotar64
consulta_id Texto cuerda

yahoo_ltrc/set2

  • Tamaño del conjunto de datos : 194.92 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 3,798
'train' 1,266
'vali' 1,266
  • Estructura de características :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
ID_doc Tensor (Ninguno,) int64
funciones_flotantes Tensor (Ninguno, 700) flotar64
etiqueta Tensor (Ninguno,) flotar64
consulta_id Texto cuerda