ingenio_kaggle

  • Descripción :

Wikipedia - Competición Kaggle de coincidencia de imagen/leyenda.

Este concurso está organizado por el equipo de Investigación de la Fundación Wikimedia en colaboración con Google Research y algunos colaboradores externos. Esta competencia se basa en el conjunto de datos WIT publicado por Google Research como se detalla en este documento SIGIR .

En esta competencia, construirá un modelo que recupera automáticamente el texto más cercano a una imagen. Específicamente, entrenará su modelo para asociar imágenes dadas con títulos de artículos o subtítulos complejos, en varios idiomas. Los mejores modelos tendrán en cuenta la granularidad semántica de las imágenes de Wikipedia. Si tiene éxito, contribuirá a la accesibilidad de la enciclopedia en línea más grande. Los millones de lectores y editores de Wikipedia podrán comprender, buscar y describir más fácilmente los medios a escala. Como resultado, contribuirá a un modelo abierto para mejorar el aprendizaje para todos.

  • Página de inicio: https://www.kaggle.com/c/wikipedia-image-caption/code

  • Código fuente : tfds.vision_language.wit_kaggle.WitKaggle

  • Versiones :

    • 1.0.0 : Versión inicial. Proporciona los conjuntos de datos de entrenamiento y prueba de la competencia de Kaggle Wikipedia - Image/Caption Matching ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      El objetivo de la competencia es construir un modelo que recupere automáticamente el texto más cercano a una imagen. Específicamente, el modelo debe entrenarse para asociar imágenes dadas con títulos de artículos o subtítulos complejos, en varios idiomas. Los mejores modelos tendrán en cuenta la granularidad semántica de las imágenes de Wikipedia.

      Tenga en cuenta que esta versión no proporciona la verdad básica para el conjunto de prueba, ya que la competencia Kaggle aún no la ha proporcionado.

      Tenga en cuenta que no todas las observaciones de entrenamiento tienen datos de imagen correspondientes. Las imágenes publicadas excluyen todas las imágenes que contienen seres humanos. Para muestras que no están asociadas con datos de imagen, se utilizan las siguientes características de imagen: image es una imagen en blanco codificada en bytes de 64, la embedding es un vector de 2048 ceros.

      Las muestras lanzadas para la competencia se pueden cargar como: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Optimice la canalización de Beam para evitar problemas, ignorando las filas sin una URL de imagen. También se agregaron más contadores de haz.

    • 1.0.2 (predeterminado): corrige el análisis de campos booleanos.

  • Tamaño de descarga : Unknown size

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Dependiendo de la configuración llamada, manual_dir debe contener algunos de los siguientes subdirectorios:

    • tren
    • tren-{0000x}-de-00005.tsv.zip
    • image_data_train/
      • imagen_pixeles/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_incrustaciones/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • prueba
    • prueba.tsv.zip
    • imagen_datos_prueba/
      • imagen_pixeles/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_incrustaciones/
      • test_resnet_embeddings_part-0000{0-9}.csv

Es necesario registrarse en https://www.kaggle.com/c/wikipedia-image-caption/data para obtener los enlaces para descargar el conjunto de datos.

  • Almacenamiento automático en caché ( documentación ): No

  • Claves supervisadas (ver as_supervised ): ('image_url', 'caption_title_and_reference_description')

  • Cita :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (configuración predeterminada)

  • Descripción de la configuración : Ejemplos de entrenamiento para la competencia Wikipedia-Image/Caption Matching.

  • Tamaño del conjunto de datos : 1.16 TiB

  • Divisiones :

Separar Ejemplos
'train_with_extended_features' 37,046,386
  • Estructura de características :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
attribution_passes_lang_id Tensor bool
caption_alt_text_descripción Texto cadena
caption_attribution_description Texto cadena
caption_reference_description Texto cadena
caption_title_and_reference_description Texto cadena
descripción_página_contexto Texto cadena
contexto_sección_descripción Texto cadena
incrustación Tensor (2048,) flotar32
título_de_la_sección_jerárquica Texto cadena
imagen Imagen (Ninguno, Ninguno, 3) uint8
URL de la imagen Texto cadena
es_imagen_principal Tensor bool
idioma Texto cadena
url_metadatos Texto cadena
tipo de Mimica Texto cadena
altura_original Tensor int32
ancho_original Tensor int32
página_cambiada_recientemente Tensor bool
Título de la página Texto cadena
URL de la página Texto cadena
sección de título Texto cadena

Visualización

ingenio_kaggle/prueba_sin_oro

  • Descripción de la configuración : Muestras de prueba (sin respuestas doradas) para la competencia Wikipedia-Imagen/Caption Matching.

  • Tamaño del conjunto de datos : 3.37 GiB

  • Divisiones :

Separar Ejemplos
'test_without_gold' 92,366
  • Estructura de características :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
caption_title_and_reference_description Texto cadena
incrustación Tensor (2048,) flotar32
identificación Texto cadena
imagen Imagen (Ninguno, Ninguno, 3) uint8
URL de la imagen Texto cadena
url_metadatos Texto cadena

Visualización

,

  • Descripción :

Wikipedia - Competición Kaggle de coincidencia de imagen/leyenda.

Este concurso está organizado por el equipo de Investigación de la Fundación Wikimedia en colaboración con Google Research y algunos colaboradores externos. Esta competencia se basa en el conjunto de datos WIT publicado por Google Research como se detalla en este documento SIGIR .

En esta competencia, construirá un modelo que recupera automáticamente el texto más cercano a una imagen. Específicamente, entrenará su modelo para asociar imágenes dadas con títulos de artículos o subtítulos complejos, en varios idiomas. Los mejores modelos tendrán en cuenta la granularidad semántica de las imágenes de Wikipedia. Si tiene éxito, contribuirá a la accesibilidad de la enciclopedia en línea más grande. Los millones de lectores y editores de Wikipedia podrán comprender, buscar y describir más fácilmente los medios a escala. Como resultado, contribuirá a un modelo abierto para mejorar el aprendizaje para todos.

  • Página de inicio: https://www.kaggle.com/c/wikipedia-image-caption/code

  • Código fuente : tfds.vision_language.wit_kaggle.WitKaggle

  • Versiones :

    • 1.0.0 : Versión inicial. Proporciona los conjuntos de datos de entrenamiento y prueba de la competencia de Kaggle Wikipedia - Image/Caption Matching ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      El objetivo de la competencia es construir un modelo que recupere automáticamente el texto más cercano a una imagen. Específicamente, el modelo debe entrenarse para asociar imágenes dadas con títulos de artículos o subtítulos complejos, en varios idiomas. Los mejores modelos tendrán en cuenta la granularidad semántica de las imágenes de Wikipedia.

      Tenga en cuenta que esta versión no proporciona la verdad básica para el conjunto de prueba, ya que la competencia Kaggle aún no la ha proporcionado.

      Tenga en cuenta que no todas las observaciones de entrenamiento tienen datos de imagen correspondientes. Las imágenes publicadas excluyen todas las imágenes que contienen seres humanos. Para muestras que no están asociadas con datos de imagen, se utilizan las siguientes características de imagen: image es una imagen en blanco codificada en bytes de 64, la embedding es un vector de 2048 ceros.

      Las muestras lanzadas para la competencia se pueden cargar como: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Optimice la canalización de Beam para evitar problemas, ignorando las filas sin una URL de imagen. También se agregaron más contadores de haz.

    • 1.0.2 (predeterminado): corrige el análisis de campos booleanos.

  • Tamaño de descarga : Unknown size

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Dependiendo de la configuración llamada, manual_dir debe contener algunos de los siguientes subdirectorios:

    • tren
    • tren-{0000x}-de-00005.tsv.zip
    • image_data_train/
      • imagen_pixeles/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_incrustaciones/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • prueba
    • prueba.tsv.zip
    • imagen_datos_prueba/
      • imagen_pixeles/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_incrustaciones/
      • test_resnet_embeddings_part-0000{0-9}.csv

Es necesario registrarse en https://www.kaggle.com/c/wikipedia-image-caption/data para obtener los enlaces para descargar el conjunto de datos.

  • Almacenamiento automático en caché ( documentación ): No

  • Claves supervisadas (ver as_supervised ): ('image_url', 'caption_title_and_reference_description')

  • Cita :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (configuración predeterminada)

  • Descripción de la configuración : Ejemplos de entrenamiento para la competencia Wikipedia-Image/Caption Matching.

  • Tamaño del conjunto de datos : 1.16 TiB

  • Divisiones :

Separar Ejemplos
'train_with_extended_features' 37,046,386
  • Estructura de características :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
attribution_passes_lang_id Tensor bool
caption_alt_text_descripción Texto cadena
caption_attribution_description Texto cadena
caption_reference_description Texto cadena
caption_title_and_reference_description Texto cadena
descripción_página_contexto Texto cadena
contexto_sección_descripción Texto cadena
incrustación Tensor (2048,) flotar32
título_de_la_sección_jerárquica Texto cadena
imagen Imagen (Ninguno, Ninguno, 3) uint8
URL de la imagen Texto cadena
es_imagen_principal Tensor bool
idioma Texto cadena
url_metadatos Texto cadena
tipo de Mimica Texto cadena
altura_original Tensor int32
ancho_original Tensor int32
página_cambiada_recientemente Tensor bool
Título de la página Texto cadena
URL de la página Texto cadena
sección de título Texto cadena

Visualización

ingenio_kaggle/prueba_sin_oro

  • Descripción de la configuración : Muestras de prueba (sin respuestas doradas) para la competencia Wikipedia-Imagen/Caption Matching.

  • Tamaño del conjunto de datos : 3.37 GiB

  • Divisiones :

Separar Ejemplos
'test_without_gold' 92,366
  • Estructura de características :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
caption_title_and_reference_description Texto cadena
incrustación Tensor (2048,) flotar32
identificación Texto cadena
imagen Imagen (Ninguno, Ninguno, 3) uint8
URL de la imagen Texto cadena
url_metadatos Texto cadena

Visualización