- Descrizione :
Il set di dati Yahoo Learning to Rank Challenge (chiamato anche "C14") è un set di dati Learning-to-Rank rilasciato da Yahoo. Il set di dati è costituito da coppie query-documento rappresentate come vettori di caratteristiche e corrispondenti etichette di giudizio di pertinenza.
Il set di dati contiene due versioni:
-
set1
: contenente 709.877 coppie query-documento. -
set2
: contenente 172.870 coppie query-documento.
È possibile specificare se utilizzare la versione set1
o set2
del set di dati come segue:
ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")
Se viene specificato solo yahoo_ltrc
, l'opzione yahoo_ltrc/set1
è selezionata per impostazione predefinita:
# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
Home page : https://research.yahoo.com/datasets
Codice sorgente :
tfds.ranking.yahoo_ltrc.YahooLTRC
Versioni :
-
1.0.0
: Versione iniziale. -
1.1.0
(predefinito): aggiungere identificatori di query e documento.
-
Dimensioni del download :
Unknown size
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):
Richiedi l'accesso per il set di dati C14 Yahoo Learning To Rank Challenge su https://research.yahoo.com/datasets Estrai il filedataset.tgz
scaricato e posiziona il fileltrc_yahoo.tar.bz2
inmanual_dir/
.Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@inproceedings{chapelle2011yahoo,
title={Yahoo! learning to rank challenge overview},
author={Chapelle, Olivier and Chang, Yi},
booktitle={Proceedings of the learning to rank challenge},
pages={1--24},
year={2011},
organization={PMLR}
}
yahoo_ltrc/set1 (configurazione predefinita)
Dimensione del set di dati:
795.39 MiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 6.983 |
'train' | 19.944 |
'vali' | 2.994 |
- Struttura delle caratteristiche :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 699), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
doc_id | Tensore | (Nessuno,) | int64 | |
float_features | Tensore | (Nessuno, 699) | galleggiante64 | |
etichetta | Tensore | (Nessuno,) | galleggiante64 | |
query_id | Testo | corda |
- Esempi ( tfds.as_dataframe ):
yahoo_ltrc/set2
Dimensione del set di dati:
194.92 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 3.798 |
'train' | 1.266 |
'vali' | 1.266 |
- Struttura delle caratteristiche :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 700), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
doc_id | Tensore | (Nessuno,) | int64 | |
float_features | Tensore | (Nessuno, 700) | galleggiante64 | |
etichetta | Tensore | (Nessuno,) | galleggiante64 | |
query_id | Testo | corda |
- Esempi ( tfds.as_dataframe ):