wit_kaggle

  • Açıklama :

Wikipedia - Resim/Başlık Eşleştirme Kaggle Yarışması.

Bu yarışma, Wikimedia Foundation'daki Araştırma ekibi tarafından Google Research ve birkaç harici ortak çalışanla işbirliği içinde düzenlenmektedir. Bu yarışma, bu SIGIR belgesinde ayrıntıları verildiği şekilde Google Research tarafından yayınlanan WIT veri kümesine dayanmaktadır.

Bu yarışmada, bir resme en yakın metni otomatik olarak alan bir model oluşturacaksınız. Spesifik olarak, modelinizi, verilen resimleri birden çok dilde makale başlıkları veya karmaşık altyazılarla ilişkilendirecek şekilde eğiteceksiniz. En iyi modeller, Wikipedia resimlerinin anlamsal ayrıntılarını hesaba katacaktır. Başarılı olursanız, en büyük çevrimiçi ansiklopedinin erişilebilirliğine katkıda bulunacaksınız. Milyonlarca Vikipedi okuyucusu ve düzenleyicisi, medyayı geniş ölçekte daha kolay anlayabilecek, araştırabilecek ve tanımlayabilecektir. Sonuç olarak, herkes için öğrenmeyi geliştirmeye yönelik açık bir modele katkıda bulunacaksınız.

  • Ana Sayfa : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Kaynak kodu : tfds.vision_language.wit_kaggle.WitKaggle

  • sürümler :

    • 1.0.0 : İlk sürüm. Wikipedia - Image/Caption Matching Kaggle yarışmasından ( https://www.kaggle.com/c/wikipedia-image-caption/data ) tren ve test veri kümelerini sağlar.

      Yarışmanın amacı, bir resme en yakın metni otomatik olarak alan bir model oluşturmaktır. Spesifik olarak, model, verilen görüntüleri birden fazla dilde makale başlıkları veya karmaşık başlıklarla ilişkilendirmek için eğitilmelidir. En iyi modeller, Wikipedia resimlerinin anlamsal ayrıntılarını hesaba katacaktır.

      Henüz Kaggle yarışması tarafından sağlanmadığı için bu yayının test seti için temel gerçeği sağlamadığını unutmayın.

      Tüm eğitim gözlemlerinin karşılık gelen görüntü verilerine sahip olmadığına dikkat edin. Yayınlanan görüntüler, insan içeren tüm görüntüleri hariç tutar. Görüntü verileriyle ilişkili olmayan örnekler için aşağıdaki görüntü özellikleri kullanılır: image , bayt-64 kodlu boş bir görüntüdür, embedding , 2048 sıfırlık bir vektördür.

      Yarışma için yayınlanan örnekler şu şekilde yüklenebilir: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Bir görüntü URL'si olmayan satırları yok sayarak, mücadelecilerden kaçınmak için Beam ardışık düzenini optimize edin. Ayrıca daha fazla Işın sayacı eklendi.

    • 1.0.2 (varsayılan): Boole alanlarının ayrıştırılmasını düzeltir.

  • İndirme boyutu : Unknown size

  • Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine download_config.manual_dir gerektirir (varsayılan olarak ~/tensorflow_datasets/downloads/manual/ ):
    Çağrılan yapılandırmaya bağlı olarak manual_dir, aşağıdaki alt dizinlerden bazılarını içermelidir:

    • tren
    • tren-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • resim_pikselleri/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • Ölçek
    • test.tsv.zip
    • image_data_test/
      • resim_pikselleri/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

Veri kümesini indirme bağlantılarını almak için https://www.kaggle.com/c/wikipedia-image-caption/data adresinden kayıt olunması gerekir.

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • Denetlenen anahtarlar (Bkz as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • Alıntı :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Wikipedia-Resim/Alt Yazı Eşleştirme yarışması için eğitim örnekleri.

  • Veri kümesi boyutu : 1.16 TiB

  • bölmeler :

Bölmek örnekler
'train_with_extended_features' 37.046.386
  • Özellik yapısı :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Açıklama
ÖzelliklerDict
attribution_passes_lang_id tensör bool
caption_alt_text_description Metin sicim
caption_attribution_description Metin sicim
caption_reference_description Metin sicim
caption_title_and_reference_description Metin sicim
bağlam_sayfası_tanımı Metin sicim
bağlam_bölümü_tanımı Metin sicim
gömmek tensör (2048,) şamandıra32
hiyerarşik_bölüm_başlığı Metin sicim
görüntü resim (Yok, Yok, 3) uint8
resim_url Metin sicim
is_main_image tensör bool
dil Metin sicim
metadata_url Metin sicim
mime_type Metin sicim
orijinal_yükseklik tensör int32
orijinal_genişlik tensör int32
page_changed_recently tensör bool
sayfa başlığı Metin sicim
sayfa_url Metin sicim
Bölüm başlığı Metin sicim

görselleştirme

wit_kaggle/test_with_gold

  • Yapılandırma açıklaması : Wikipedia-Resim/Alt Yazı Eşleştirme yarışması için test örnekleri (altın cevaplar olmadan).

  • Veri kümesi boyutu : 3.37 GiB

  • bölmeler :

Bölmek örnekler
'test_without_gold' 92.366
  • Özellik yapısı :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Açıklama
ÖzelliklerDict
caption_title_and_reference_description Metin sicim
gömmek tensör (2048,) şamandıra32
İD Metin sicim
resim resim (Yok, Yok, 3) uint8
resim_url Metin sicim
metadata_url Metin sicim

görselleştirme