yahoo_ltrc

  • Descrizione :

Il set di dati Yahoo Learning to Rank Challenge (chiamato anche "C14") è un set di dati Learning-to-Rank rilasciato da Yahoo. Il set di dati è costituito da coppie query-documento rappresentate come vettori di caratteristiche e corrispondenti etichette di giudizio di pertinenza.

Il set di dati contiene due versioni:

  • set1 : contenente 709.877 coppie query-documento.
  • set2 : contenente 172.870 coppie query-documento.

È possibile specificare se utilizzare la versione set1 o set2 del set di dati come segue:

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

Se viene specificato solo yahoo_ltrc , l'opzione yahoo_ltrc/set1 è selezionata per impostazione predefinita:

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • Home page : https://research.yahoo.com/datasets

  • Codice sorgente : tfds.ranking.yahoo_ltrc.YahooLTRC

  • Versioni :

    • 1.0.0 : Versione iniziale.
    • 1.1.0 (predefinito): aggiungere identificatori di query e documento.
  • Dimensioni del download : Unknown size

  • Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in download_config.manual_dir (il valore predefinito ~/tensorflow_datasets/downloads/manual/ ):
    Richiedi l'accesso per il set di dati C14 Yahoo Learning To Rank Challenge su https://research.yahoo.com/datasets Estrai il file dataset.tgz scaricato e posiziona il file ltrc_yahoo.tar.bz2 in manual_dir/ .

  • Chiavi supervisionate (Vedi as_supervised doc ): None

  • Figura ( tfds.show_examples ): non supportato.

  • Citazione :

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc/set1 (configurazione predefinita)

  • Dimensione del set di dati: 795.39 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 6.983
'train' 19.944
'vali' 2.994
  • Struttura delle caratteristiche :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
doc_id Tensore (Nessuno,) int64
float_features Tensore (Nessuno, 699) galleggiante64
etichetta Tensore (Nessuno,) galleggiante64
query_id Testo corda

yahoo_ltrc/set2

  • Dimensione del set di dati: 194.92 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 3.798
'train' 1.266
'vali' 1.266
  • Struttura delle caratteristiche :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
doc_id Tensore (Nessuno,) int64
float_features Tensore (Nessuno, 700) galleggiante64
etichetta Tensore (Nessuno,) galleggiante64
query_id Testo corda