- Descripción :
Wikipedia - Competición Kaggle de coincidencia de imagen/leyenda.
Este concurso está organizado por el equipo de Investigación de la Fundación Wikimedia en colaboración con Google Research y algunos colaboradores externos. Esta competencia se basa en el conjunto de datos WIT publicado por Google Research como se detalla en este documento SIGIR .
En esta competencia, construirá un modelo que recupera automáticamente el texto más cercano a una imagen. Específicamente, entrenará su modelo para asociar imágenes dadas con títulos de artículos o subtítulos complejos, en varios idiomas. Los mejores modelos tendrán en cuenta la granularidad semántica de las imágenes de Wikipedia. Si tiene éxito, contribuirá a la accesibilidad de la enciclopedia en línea más grande. Los millones de lectores y editores de Wikipedia podrán comprender, buscar y describir más fácilmente los medios a escala. Como resultado, contribuirá a un modelo abierto para mejorar el aprendizaje para todos.
Página de inicio: https://www.kaggle.com/c/wikipedia-image-caption/code
Código fuente :
tfds.vision_language.wit_kaggle.WitKaggle
Versiones :
1.0.0
: Versión inicial. Proporciona los conjuntos de datos de entrenamiento y prueba de la competencia de Kaggle Wikipedia - Image/Caption Matching ( https://www.kaggle.com/c/wikipedia-image-caption/data ).El objetivo de la competencia es construir un modelo que recupere automáticamente el texto más cercano a una imagen. Específicamente, el modelo debe entrenarse para asociar imágenes dadas con títulos de artículos o subtítulos complejos, en varios idiomas. Los mejores modelos tendrán en cuenta la granularidad semántica de las imágenes de Wikipedia.
Tenga en cuenta que esta versión no proporciona la verdad básica para el conjunto de prueba, ya que la competencia Kaggle aún no la ha proporcionado.
Tenga en cuenta que no todas las observaciones de entrenamiento tienen datos de imagen correspondientes. Las imágenes publicadas excluyen todas las imágenes que contienen seres humanos. Para muestras que no están asociadas con datos de imagen, se utilizan las siguientes características de imagen:
image
es una imagen en blanco codificada en bytes de 64, laembedding
es un vector de 2048 ceros.Las muestras lanzadas para la competencia se pueden cargar como:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: Optimice la canalización de Beam para evitar problemas, ignorando las filas sin una URL de imagen. También se agregaron más contadores de haz.1.0.2
(predeterminado): corrige el análisis de campos booleanos.
Tamaño de descarga :
Unknown size
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Dependiendo de la configuración llamada, manual_dir debe contener algunos de los siguientes subdirectorios:- tren
- tren-{0000x}-de-00005.tsv.zip
- image_data_train/
- imagen_pixeles/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_incrustaciones/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- prueba
- prueba.tsv.zip
- imagen_datos_prueba/
- imagen_pixeles/
- test_image_pixels_part-0000{0-4}.csv
- resnet_incrustaciones/
- test_resnet_embeddings_part-0000{0-9}.csv
Es necesario registrarse en https://www.kaggle.com/c/wikipedia-image-caption/data para obtener los enlaces para descargar el conjunto de datos.
Almacenamiento automático en caché ( documentación ): No
Claves supervisadas (ver
as_supervised
):('image_url', 'caption_title_and_reference_description')
Cita :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (configuración predeterminada)
Descripción de la configuración : Ejemplos de entrenamiento para la competencia Wikipedia-Image/Caption Matching.
Tamaño del conjunto de datos :
1.16 TiB
Divisiones :
Separar | Ejemplos |
---|---|
'train_with_extended_features' | 37,046,386 |
- Estructura de características :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
attribution_passes_lang_id | Tensor | bool | ||
caption_alt_text_descripción | Texto | cadena | ||
caption_attribution_description | Texto | cadena | ||
caption_reference_description | Texto | cadena | ||
caption_title_and_reference_description | Texto | cadena | ||
descripción_página_contexto | Texto | cadena | ||
contexto_sección_descripción | Texto | cadena | ||
incrustación | Tensor | (2048,) | flotar32 | |
título_de_la_sección_jerárquica | Texto | cadena | ||
imagen | Imagen | (Ninguno, Ninguno, 3) | uint8 | |
URL de la imagen | Texto | cadena | ||
es_imagen_principal | Tensor | bool | ||
idioma | Texto | cadena | ||
url_metadatos | Texto | cadena | ||
tipo de Mimica | Texto | cadena | ||
altura_original | Tensor | int32 | ||
ancho_original | Tensor | int32 | ||
página_cambiada_recientemente | Tensor | bool | ||
Título de la página | Texto | cadena | ||
URL de la página | Texto | cadena | ||
sección de título | Texto | cadena |
- Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):
ingenio_kaggle/prueba_sin_oro
Descripción de la configuración : Muestras de prueba (sin respuestas doradas) para la competencia Wikipedia-Imagen/Caption Matching.
Tamaño del conjunto de datos :
3.37 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test_without_gold' | 92,366 |
- Estructura de características :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
caption_title_and_reference_description | Texto | cadena | ||
incrustación | Tensor | (2048,) | flotar32 | |
identificación | Texto | cadena | ||
imagen | Imagen | (Ninguno, Ninguno, 3) | uint8 | |
URL de la imagen | Texto | cadena | ||
url_metadatos | Texto | cadena |
- Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):
- Descripción :
Wikipedia - Competición Kaggle de coincidencia de imagen/leyenda.
Este concurso está organizado por el equipo de Investigación de la Fundación Wikimedia en colaboración con Google Research y algunos colaboradores externos. Esta competencia se basa en el conjunto de datos WIT publicado por Google Research como se detalla en este documento SIGIR .
En esta competencia, construirá un modelo que recupera automáticamente el texto más cercano a una imagen. Específicamente, entrenará su modelo para asociar imágenes dadas con títulos de artículos o subtítulos complejos, en varios idiomas. Los mejores modelos tendrán en cuenta la granularidad semántica de las imágenes de Wikipedia. Si tiene éxito, contribuirá a la accesibilidad de la enciclopedia en línea más grande. Los millones de lectores y editores de Wikipedia podrán comprender, buscar y describir más fácilmente los medios a escala. Como resultado, contribuirá a un modelo abierto para mejorar el aprendizaje para todos.
Página de inicio: https://www.kaggle.com/c/wikipedia-image-caption/code
Código fuente :
tfds.vision_language.wit_kaggle.WitKaggle
Versiones :
1.0.0
: Versión inicial. Proporciona los conjuntos de datos de entrenamiento y prueba de la competencia de Kaggle Wikipedia - Image/Caption Matching ( https://www.kaggle.com/c/wikipedia-image-caption/data ).El objetivo de la competencia es construir un modelo que recupere automáticamente el texto más cercano a una imagen. Específicamente, el modelo debe entrenarse para asociar imágenes dadas con títulos de artículos o subtítulos complejos, en varios idiomas. Los mejores modelos tendrán en cuenta la granularidad semántica de las imágenes de Wikipedia.
Tenga en cuenta que esta versión no proporciona la verdad básica para el conjunto de prueba, ya que la competencia Kaggle aún no la ha proporcionado.
Tenga en cuenta que no todas las observaciones de entrenamiento tienen datos de imagen correspondientes. Las imágenes publicadas excluyen todas las imágenes que contienen seres humanos. Para muestras que no están asociadas con datos de imagen, se utilizan las siguientes características de imagen:
image
es una imagen en blanco codificada en bytes de 64, laembedding
es un vector de 2048 ceros.Las muestras lanzadas para la competencia se pueden cargar como:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: Optimice la canalización de Beam para evitar problemas, ignorando las filas sin una URL de imagen. También se agregaron más contadores de haz.1.0.2
(predeterminado): corrige el análisis de campos booleanos.
Tamaño de descarga :
Unknown size
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Dependiendo de la configuración llamada, manual_dir debe contener algunos de los siguientes subdirectorios:- tren
- tren-{0000x}-de-00005.tsv.zip
- image_data_train/
- imagen_pixeles/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_incrustaciones/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- prueba
- prueba.tsv.zip
- imagen_datos_prueba/
- imagen_pixeles/
- test_image_pixels_part-0000{0-4}.csv
- resnet_incrustaciones/
- test_resnet_embeddings_part-0000{0-9}.csv
Es necesario registrarse en https://www.kaggle.com/c/wikipedia-image-caption/data para obtener los enlaces para descargar el conjunto de datos.
Almacenamiento automático en caché ( documentación ): No
Claves supervisadas (ver
as_supervised
):('image_url', 'caption_title_and_reference_description')
Cita :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (configuración predeterminada)
Descripción de la configuración : Ejemplos de entrenamiento para la competencia Wikipedia-Image/Caption Matching.
Tamaño del conjunto de datos :
1.16 TiB
Divisiones :
Separar | Ejemplos |
---|---|
'train_with_extended_features' | 37,046,386 |
- Estructura de características :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
attribution_passes_lang_id | Tensor | bool | ||
caption_alt_text_descripción | Texto | cadena | ||
caption_attribution_description | Texto | cadena | ||
caption_reference_description | Texto | cadena | ||
caption_title_and_reference_description | Texto | cadena | ||
descripción_página_contexto | Texto | cadena | ||
contexto_sección_descripción | Texto | cadena | ||
incrustación | Tensor | (2048,) | flotar32 | |
título_de_la_sección_jerárquica | Texto | cadena | ||
imagen | Imagen | (Ninguno, Ninguno, 3) | uint8 | |
URL de la imagen | Texto | cadena | ||
es_imagen_principal | Tensor | bool | ||
idioma | Texto | cadena | ||
url_metadatos | Texto | cadena | ||
tipo de Mimica | Texto | cadena | ||
altura_original | Tensor | int32 | ||
ancho_original | Tensor | int32 | ||
página_cambiada_recientemente | Tensor | bool | ||
Título de la página | Texto | cadena | ||
URL de la página | Texto | cadena | ||
sección de título | Texto | cadena |
- Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):
ingenio_kaggle/prueba_sin_oro
Descripción de la configuración : Muestras de prueba (sin respuestas doradas) para la competencia Wikipedia-Imagen/Caption Matching.
Tamaño del conjunto de datos :
3.37 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test_without_gold' | 92,366 |
- Estructura de características :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
caption_title_and_reference_description | Texto | cadena | ||
incrustación | Tensor | (2048,) | flotar32 | |
identificación | Texto | cadena | ||
imagen | Imagen | (Ninguno, Ninguno, 3) | uint8 | |
URL de la imagen | Texto | cadena | ||
url_metadatos | Texto | cadena |
- Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):