- Описание :
Википедия — Соревнование Kaggle по подбору изображений и подписей.
Этот конкурс организован исследовательской группой Фонда Викимедиа в сотрудничестве с Google Research и несколькими внешними сотрудниками. Это соревнование основано на наборе данных WIT , опубликованном Google Research, как подробно описано в этой статье SIGIR .
В этом соревновании вы создадите модель, которая автоматически извлекает текст, наиболее близкий к изображению. В частности, вы научите свою модель связывать заданные изображения с заголовками статей или сложными подписями на нескольких языках. Лучшие модели будут учитывать семантическую детализацию изображений Википедии. В случае успеха вы будете способствовать доступности крупнейшей онлайн-энциклопедии. Миллионы читателей и редакторов Википедии смогут легче понимать, искать и описывать медиа в любом масштабе. В результате вы внесете свой вклад в открытую модель повышения качества обучения для всех.
Домашняя страница : https://www.kaggle.com/c/wikipedia-image-caption/code
Исходный код :
tfds.vision_language.wit_kaggle.WitKaggle
Версии :
1.0.0
: Первоначальный выпуск. Он предоставляет обучающие и тестовые наборы данных из конкурса Wikipedia — Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).Цель конкурса — построить модель, которая автоматически извлекает текст, наиболее близкий к изображению. В частности, модель должна быть обучена связывать заданные изображения с заголовками статей или сложными заголовками на нескольких языках. Лучшие модели будут учитывать семантическую детализацию изображений Википедии.
Обратите внимание, что этот релиз не предоставляет достоверной информации для тестового набора, поскольку он еще не был предоставлен конкурсом Kaggle.
Обратите внимание, что не все обучающие наблюдения имеют соответствующие данные изображения. Выпущенные изображения исключают все изображения, содержащие людей. Для образцов, которые не связаны с данными изображения, используются следующие характеристики изображения:
image
представляет собой пустое изображение, закодированное в 64 байта,embedding
представляет собой вектор из 2048 нулей.Образцы, выпущенные для конкурса, можно загрузить как:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: Оптимизируйте конвейер Beam, чтобы избежать проблем, игнорируя строки без URL-адреса изображения. Также добавлено больше счетчиков лучей.1.0.2
(по умолчанию): исправляет синтаксический анализ логических полей.
Размер загрузки :
Unknown size
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
В зависимости от вызываемой конфигурации, manual_dir должен содержать некоторые из следующих подкаталогов:- тренироваться
- поезд-{0000x}-из-00005.tsv.zip
- image_data_train/
- изображение_пикселей/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- тестовое задание
- test.tsv.zip
- image_data_test/
- изображение_пикселей/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
Регистрация на https://www.kaggle.com/c/wikipedia-image-caption/data необходима, чтобы получить ссылки для загрузки набора данных.
Автоматическое кэширование ( документация ): Нет
Контролируемые ключи (см.
as_supervised
doc ):('image_url', 'caption_title_and_reference_description')
Цитата :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (конфигурация по умолчанию)
Описание конфигурации : обучающие образцы для конкурса сопоставления изображений и подписей Википедии.
Размер набора данных :
1.16 TiB
.Сплиты :
Расколоть | Примеры |
---|---|
'train_with_extended_features' | 37 046 386 |
- Структура функции :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
attribution_passes_lang_id | Тензор | логический | ||
caption_alt_text_description | Текст | нить | ||
caption_attribution_description | Текст | нить | ||
caption_reference_description | Текст | нить | ||
caption_title_and_reference_description | Текст | нить | ||
context_page_description | Текст | нить | ||
context_section_description | Текст | нить | ||
встраивание | Тензор | (2048 г.) | поплавок32 | |
иерархический_раздел_название | Текст | нить | ||
изображение | Изображение | (Нет, Нет, 3) | uint8 | |
URL изображения | Текст | нить | ||
is_main_image | Тензор | логический | ||
язык | Текст | нить | ||
метаданные_url | Текст | нить | ||
mime_type | Текст | нить | ||
original_height | Тензор | int32 | ||
исходная_ширина | Тензор | int32 | ||
page_changed_recently | Тензор | логический | ||
Заголовок страницы | Текст | нить | ||
page_url | Текст | нить | ||
section_title | Текст | нить |
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
Описание конфигурации : Тестовые образцы (без золотых ответов) для конкурса «Википедия-изображение/подпись».
Размер набора данных :
3.37 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test_without_gold' | 92 366 |
- Структура функции :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
caption_title_and_reference_description | Текст | нить | ||
встраивание | Тензор | (2048 г.) | поплавок32 | |
я бы | Текст | нить | ||
изображение | Изображение | (Нет, Нет, 3) | uint8 | |
URL изображения | Текст | нить | ||
метаданные_url | Текст | нить |
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):