- Описание :
Набор данных Yahoo Learning to Rank Challenge (также называемый «C14») представляет собой набор данных Learning-to-Rank, выпущенный Yahoo. Набор данных состоит из пар запрос-документ, представленных в виде векторов признаков и соответствующих меток суждения о релевантности.
Набор данных содержит две версии:
-
set1
: содержит 709 877 пар запрос-документ. -
set2
: содержит 172 870 пар запрос-документ.
Вы можете указать, использовать ли версию набора данных set1
или set2
следующим образом:
ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")
Если указан только yahoo_ltrc
, по умолчанию выбирается опция yahoo_ltrc/set1
:
# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
Домашняя страница : https://research.yahoo.com/datasets
Исходный код :
tfds.ranking.yahoo_ltrc.YahooLTRC
Версии :
-
1.0.0
: Первоначальный выпуск. -
1.1.0
(по умолчанию): добавьте идентификаторы запросов и документов.
-
Размер загрузки :
Unknown size
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Запросите доступ к набору данных C14 Yahoo Learning To Rank Challenge по адресу https://research.yahoo.com/datasets . Извлеките загруженный файлdataset.tgz
и поместите файлltrc_yahoo.tar.bz2
вmanual_dir/
.Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{chapelle2011yahoo,
title={Yahoo! learning to rank challenge overview},
author={Chapelle, Olivier and Chang, Yi},
booktitle={Proceedings of the learning to rank challenge},
pages={1--24},
year={2011},
organization={PMLR}
}
yahoo_ltrc/set1 (конфигурация по умолчанию)
Размер набора данных :
795.39 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 6983 |
'train' | 19 944 |
'vali' | 2994 |
- Структура функции :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 699), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
doc_id | Тензор | (Никто,) | int64 | |
float_features | Тензор | (Нет, 699) | поплавок64 | |
этикетка | Тензор | (Никто,) | поплавок64 | |
query_id | Текст | нить |
- Примеры ( tfds.as_dataframe ):
yahoo_ltrc/set2
Размер набора данных :
194.92 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 3798 |
'train' | 1266 |
'vali' | 1266 |
- Структура функции :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 700), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
doc_id | Тензор | (Никто,) | int64 | |
float_features | Тензор | (Нет, 700) | поплавок64 | |
этикетка | Тензор | (Никто,) | поплавок64 | |
query_id | Текст | нить |
- Примеры ( tfds.as_dataframe ):