- Описание :
Набор данных моделирования подъема Criteo
Этот набор данных выпущен вместе с документом: «Крупномасштабный контрольный показатель для моделирования поднятия» Юсташ Димерт, Артем Бетлей, Кристоф Реноден; (Criteo AI Lab), Массих-Реза Амини (LIG, Grenoble INP)
Эта работа была опубликована в AdKDD 2018 Workshop совместно с KDD 2018.
Описание данных
Этот набор данных создается путем сбора данных, полученных в результате нескольких тестов инкрементальности, особой процедуры рандомизированных испытаний, при которой реклама предотвращает попадание случайной части населения в таргетинг. он состоит из 25 миллионов строк, каждая из которых представляет пользователя с 11 функциями, индикатором обработки и 2 метками (посещения и конверсии).
Поля
Вот подробное описание полей (в файле они разделены запятыми):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: значения функций (плотные, плавающие)
- лечение: группа лечения (1 = обработанная, 0 = контрольная)
- конверсия: произошла ли конверсия для этого пользователя (двоичный файл, ярлык)
- посещение: произошло ли посещение для этого пользователя (бинарное, метка)
- воздействие: эффект лечения, был ли пользователь подвергнут эффективному воздействию (бинарное)
Ключевые цифры
- Формат: CSV
- Размер: 459 МБ (в сжатом виде)
- Ряды: 25 309 483
- Средняя частота посещений: 0,04132
- Средний коэффициент конверсии: 0,00229
- Коэффициент лечения: 0,846
Задачи
Набор данных был собран и подготовлен с учетом прогнозирования поднятия в качестве основной задачи. Кроме того, мы можем предвидеть связанные варианты использования, такие как, но не ограничиваясь ими:
- ориентир для причинно-следственной связи
- моделирование подъема
- взаимодействие между функциями и лечением
- неоднородность лечения
эталон для методов причинно-следственной связи
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Исходный код :
tfds.recommendation.criteo.Criteo
Версии :
-
1.0.0
: Первоначальный выпуск. -
1.0.1
(по умолчанию): Исправлен синтаксический анализ полейconversion
,visit
иexposure
.
-
Размер загрузки :
297.00 MiB
Размер набора данных :
3.55 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 13 979 592 |
- Структура функции :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
преобразование | Тензор | логический | ||
экспозиция | Тензор | логический | ||
f0 | Тензор | поплавок32 | ||
f1 | Тензор | поплавок32 | ||
f10 | Тензор | поплавок32 | ||
f11 | Тензор | поплавок32 | ||
f2 | Тензор | поплавок32 | ||
f3 | Тензор | поплавок32 | ||
f4 | Тензор | поплавок32 | ||
f5 | Тензор | поплавок32 | ||
f6 | Тензор | поплавок32 | ||
f7 | Тензор | поплавок32 | ||
f8 | Тензор | поплавок32 | ||
f9 | Тензор | поплавок32 | ||
лечение | Тензор | int64 | ||
посетить | Тензор | логический |
Контролируемые ключи (см.
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
, - Описание :
Набор данных моделирования подъема Criteo
Этот набор данных выпущен вместе с документом: «Крупномасштабный контрольный показатель для моделирования поднятия» Юсташ Димерт, Артем Бетлей, Кристоф Реноден; (Criteo AI Lab), Массих-Реза Амини (LIG, Grenoble INP)
Эта работа была опубликована в AdKDD 2018 Workshop совместно с KDD 2018.
Описание данных
Этот набор данных создается путем сбора данных, полученных в результате нескольких тестов инкрементальности, особой процедуры рандомизированных испытаний, при которой реклама предотвращает попадание случайной части населения в таргетинг. он состоит из 25 миллионов строк, каждая из которых представляет пользователя с 11 функциями, индикатором обработки и 2 метками (посещения и конверсии).
Поля
Вот подробное описание полей (в файле они разделены запятыми):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: значения функций (плотные, плавающие)
- лечение: группа лечения (1 = обработанная, 0 = контрольная)
- конверсия: произошла ли конверсия для этого пользователя (двоичный файл, ярлык)
- посещение: произошло ли посещение для этого пользователя (бинарное, метка)
- воздействие: эффект лечения, был ли пользователь подвергнут эффективному воздействию (бинарное)
Ключевые цифры
- Формат: CSV
- Размер: 459 МБ (в сжатом виде)
- Ряды: 25 309 483
- Средняя частота посещений: 0,04132
- Средний коэффициент конверсии: 0,00229
- Коэффициент лечения: 0,846
Задачи
Набор данных был собран и подготовлен с учетом прогнозирования поднятия в качестве основной задачи. Кроме того, мы можем предвидеть связанные варианты использования, такие как, но не ограничиваясь ими:
- ориентир для причинно-следственной связи
- моделирование подъема
- взаимодействие между функциями и лечением
- неоднородность лечения
эталон для методов причинно-следственной связи
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Исходный код :
tfds.recommendation.criteo.Criteo
Версии :
-
1.0.0
: Первоначальный выпуск. -
1.0.1
(по умолчанию): Исправлен синтаксический анализ полейconversion
,visit
иexposure
.
-
Размер загрузки :
297.00 MiB
Размер набора данных :
3.55 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 13 979 592 |
- Структура функции :
FeaturesDict({
'conversion': bool,
'exposure': bool,
'f0': float32,
'f1': float32,
'f10': float32,
'f11': float32,
'f2': float32,
'f3': float32,
'f4': float32,
'f5': float32,
'f6': float32,
'f7': float32,
'f8': float32,
'f9': float32,
'treatment': int64,
'visit': bool,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
преобразование | Тензор | логический | ||
экспозиция | Тензор | логический | ||
f0 | Тензор | поплавок32 | ||
f1 | Тензор | поплавок32 | ||
f10 | Тензор | поплавок32 | ||
f11 | Тензор | поплавок32 | ||
f2 | Тензор | поплавок32 | ||
f3 | Тензор | поплавок32 | ||
f4 | Тензор | поплавок32 | ||
f5 | Тензор | поплавок32 | ||
f6 | Тензор | поплавок32 | ||
f7 | Тензор | поплавок32 | ||
f8 | Тензор | поплавок32 | ||
f9 | Тензор | поплавок32 | ||
лечение | Тензор | int64 | ||
посетить | Тензор | логический |
Контролируемые ключи (см.
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}