- Описание :
Наборы данных Istella — это три крупномасштабных набора данных Learning-to-Rank, выпущенных Istella. Каждый набор данных состоит из пар запрос-документ, представленных в виде векторов признаков и соответствующих меток суждения о релевантности.
Набор данных содержит три версии:
-
main
("Istella LETOR"): содержит 10 454 629 пар запрос-документ. -
s
("Istella-S LETOR"): содержит 3 408 630 пар запрос-документ. -
x
("Istella-X LETOR"): содержит 26 791 447 пар запрос-документ.
Вы можете указать, использовать ли main
, s
или x
версию набора данных следующим образом:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Если указана только istella
, по умолчанию выбирается опция istella/main
:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Домашняя страница : http://quickrank.isti.cnr.it/istella-dataset/
Исходный код :
tfds.ranking.istella.Istella
Версии :
-
1.0.0
: Первоначальный выпуск. -
1.0.1
: исправлена сериализация для поддержки float64. -
1.1.0
: Объединение функций в одну функцию «float_features». -
1.2.0
(по умолчанию): добавьте идентификаторы запросов и документов.
-
Автоматическое кэширование ( документация ): Нет
Структура функции :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
doc_id | Тензор | (Никто,) | int64 | |
float_features | Тензор | (Нет, 220) | поплавок64 | |
этикетка | Тензор | (Никто,) | поплавок64 | |
query_id | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (конфигурация по умолчанию)
Размер загрузки :
1.20 GiB
Размер набора данных :
1.12 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 9799 |
'train' | 23 219 |
- Примеры ( tfds.as_dataframe ):
истелла / с
Размер загрузки :
450.26 MiB
Размер набора данных :
421.88 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 6562 |
'train' | 19 245 |
'vali' | 7 211 |
- Примеры ( tfds.as_dataframe ):
истелла/х
Размер загрузки :
4.42 GiB
Размер набора данных :
2.46 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2000 |
'train' | 6000 |
'vali' | 2000 |
- Примеры ( tfds.as_dataframe ):
- Описание :
Наборы данных Istella — это три крупномасштабных набора данных Learning-to-Rank, выпущенных Istella. Каждый набор данных состоит из пар запрос-документ, представленных в виде векторов признаков и соответствующих меток суждения о релевантности.
Набор данных содержит три версии:
-
main
("Istella LETOR"): содержит 10 454 629 пар запрос-документ. -
s
("Istella-S LETOR"): содержит 3 408 630 пар запрос-документ. -
x
("Istella-X LETOR"): содержит 26 791 447 пар запрос-документ.
Вы можете указать, использовать ли main
, s
или x
версию набора данных следующим образом:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Если указана только istella
, по умолчанию выбирается опция istella/main
:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Домашняя страница : http://quickrank.isti.cnr.it/istella-dataset/
Исходный код :
tfds.ranking.istella.Istella
Версии :
-
1.0.0
: Первоначальный выпуск. -
1.0.1
: исправлена сериализация для поддержки float64. -
1.1.0
: Объединение функций в одну функцию «float_features». -
1.2.0
(по умолчанию): добавьте идентификаторы запросов и документов.
-
Автоматическое кэширование ( документация ): Нет
Структура функции :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
doc_id | Тензор | (Никто,) | int64 | |
float_features | Тензор | (Нет, 220) | поплавок64 | |
этикетка | Тензор | (Никто,) | поплавок64 | |
query_id | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (конфигурация по умолчанию)
Размер загрузки :
1.20 GiB
Размер набора данных :
1.12 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 9799 |
'train' | 23 219 |
- Примеры ( tfds.as_dataframe ):
истелла / с
Размер загрузки :
450.26 MiB
Размер набора данных :
421.88 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 6562 |
'train' | 19 245 |
'vali' | 7 211 |
- Примеры ( tfds.as_dataframe ):
истелла/х
Размер загрузки :
4.42 GiB
Размер набора данных :
2.46 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2000 |
'train' | 6000 |
'vali' | 2000 |
- Примеры ( tfds.as_dataframe ):