yahoo_ltrc

  • Описание :

Набор данных Yahoo Learning to Rank Challenge (также называемый «C14») представляет собой набор данных Learning-to-Rank, выпущенный Yahoo. Набор данных состоит из пар запрос-документ, представленных в виде векторов признаков и соответствующих меток суждения о релевантности.

Набор данных содержит две версии:

  • set1 : содержит 709 877 пар запрос-документ.
  • set2 : содержит 172 870 пар запрос-документ.

Вы можете указать, использовать ли версию набора данных set1 или set2 следующим образом:

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

Если указан только yahoo_ltrc , по умолчанию выбирается опция yahoo_ltrc/set1 :

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • Домашняя страница : https://research.yahoo.com/datasets

  • Исходный код : tfds.ranking.yahoo_ltrc.YahooLTRC

  • Версии :

    • 1.0.0 : Первоначальный выпуск.
    • 1.1.0 (по умолчанию): добавьте идентификаторы запросов и документов.
  • Размер загрузки : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Запросите доступ к набору данных C14 Yahoo Learning To Rank Challenge по адресу https://research.yahoo.com/datasets . Извлеките загруженный файл dataset.tgz и поместите файл ltrc_yahoo.tar.bz2 в manual_dir/ .

  • Ключи под наблюдением (см . документ as_supervised ): None

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc/set1 (конфигурация по умолчанию)

  • Размер набора данных : 795.39 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 6983
'train' 19 944
'vali' 2994
  • Структура функции :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
doc_id Тензор (Никто,) int64
float_features Тензор (Нет, 699) поплавок64
этикетка Тензор (Никто,) поплавок64
query_id Текст нить

yahoo_ltrc/set2

  • Размер набора данных : 194.92 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 3798
'train' 1266
'vali' 1266
  • Структура функции :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
doc_id Тензор (Никто,) int64
float_features Тензор (Нет, 700) поплавок64
этикетка Тензор (Никто,) поплавок64
query_id Текст нить