- Açıklama :
Wikipedia - Resim/Başlık Eşleştirme Kaggle Yarışması.
Bu yarışma, Wikimedia Foundation'daki Araştırma ekibi tarafından Google Research ve birkaç harici ortak çalışanla işbirliği içinde düzenlenmektedir. Bu yarışma, bu SIGIR belgesinde ayrıntıları verildiği şekilde Google Research tarafından yayınlanan WIT veri kümesine dayanmaktadır.
Bu yarışmada, bir resme en yakın metni otomatik olarak alan bir model oluşturacaksınız. Spesifik olarak, modelinizi, verilen resimleri birden çok dilde makale başlıkları veya karmaşık altyazılarla ilişkilendirecek şekilde eğiteceksiniz. En iyi modeller, Wikipedia resimlerinin anlamsal ayrıntılarını hesaba katacaktır. Başarılı olursanız, en büyük çevrimiçi ansiklopedinin erişilebilirliğine katkıda bulunacaksınız. Milyonlarca Vikipedi okuyucusu ve düzenleyicisi, medyayı geniş ölçekte daha kolay anlayabilecek, araştırabilecek ve tanımlayabilecektir. Sonuç olarak, herkes için öğrenmeyi geliştirmeye yönelik açık bir modele katkıda bulunacaksınız.
Ana Sayfa : https://www.kaggle.com/c/wikipedia-image-caption/code
Kaynak kodu :
tfds.vision_language.wit_kaggle.WitKaggle
sürümler :
1.0.0
: İlk sürüm. Wikipedia - Image/Caption Matching Kaggle yarışmasından ( https://www.kaggle.com/c/wikipedia-image-caption/data ) tren ve test veri kümelerini sağlar.Yarışmanın amacı, bir resme en yakın metni otomatik olarak alan bir model oluşturmaktır. Spesifik olarak, model, verilen görüntüleri birden fazla dilde makale başlıkları veya karmaşık başlıklarla ilişkilendirmek için eğitilmelidir. En iyi modeller, Wikipedia resimlerinin anlamsal ayrıntılarını hesaba katacaktır.
Henüz Kaggle yarışması tarafından sağlanmadığı için bu yayının test seti için temel gerçeği sağlamadığını unutmayın.
Tüm eğitim gözlemlerinin karşılık gelen görüntü verilerine sahip olmadığına dikkat edin. Yayınlanan görüntüler, insan içeren tüm görüntüleri hariç tutar. Görüntü verileriyle ilişkili olmayan örnekler için aşağıdaki görüntü özellikleri kullanılır:
image
, bayt-64 kodlu boş bir görüntüdür,embedding
, 2048 sıfırlık bir vektördür.Yarışma için yayınlanan örnekler şu şekilde yüklenebilir:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: Bir görüntü URL'si olmayan satırları yok sayarak, mücadelecilerden kaçınmak için Beam ardışık düzenini optimize edin. Ayrıca daha fazla Işın sayacı eklendi.1.0.2
(varsayılan): Boole alanlarının ayrıştırılmasını düzeltir.
İndirme boyutu :
Unknown size
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dir
gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
):
Çağrılan yapılandırmaya bağlı olarak manual_dir, aşağıdaki alt dizinlerden bazılarını içermelidir:- tren
- tren-{0000x}-of-00005.tsv.zip
- image_data_train/
- resim_pikselleri/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- Ölçek
- test.tsv.zip
- image_data_test/
- resim_pikselleri/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
Veri kümesini indirme bağlantılarını almak için https://www.kaggle.com/c/wikipedia-image-caption/data adresinden kayıt olunması gerekir.
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
Denetlenen anahtarlar (Bkz
as_supervised
doc ):('image_url', 'caption_title_and_reference_description')
Alıntı :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (varsayılan yapılandırma)
Yapılandırma açıklaması : Wikipedia-Resim/Alt Yazı Eşleştirme yarışması için eğitim örnekleri.
Veri kümesi boyutu :
1.16 TiB
bölmeler :
Bölmek | örnekler |
---|---|
'train_with_extended_features' | 37.046.386 |
- Özellik yapısı :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
attribution_passes_lang_id | tensör | bool | ||
caption_alt_text_description | Metin | sicim | ||
caption_attribution_description | Metin | sicim | ||
caption_reference_description | Metin | sicim | ||
caption_title_and_reference_description | Metin | sicim | ||
bağlam_sayfası_tanımı | Metin | sicim | ||
bağlam_bölümü_tanımı | Metin | sicim | ||
gömmek | tensör | (2048,) | şamandıra32 | |
hiyerarşik_bölüm_başlığı | Metin | sicim | ||
görüntü | resim | (Yok, Yok, 3) | uint8 | |
resim_url | Metin | sicim | ||
is_main_image | tensör | bool | ||
dil | Metin | sicim | ||
metadata_url | Metin | sicim | ||
mime_type | Metin | sicim | ||
orijinal_yükseklik | tensör | int32 | ||
orijinal_genişlik | tensör | int32 | ||
page_changed_recently | tensör | bool | ||
sayfa başlığı | Metin | sicim | ||
sayfa_url | Metin | sicim | ||
Bölüm başlığı | Metin | sicim |
- Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
wit_kaggle/test_with_gold
Yapılandırma açıklaması : Wikipedia-Resim/Alt Yazı Eşleştirme yarışması için test örnekleri (altın cevaplar olmadan).
Veri kümesi boyutu :
3.37 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test_without_gold' | 92.366 |
- Özellik yapısı :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
caption_title_and_reference_description | Metin | sicim | ||
gömmek | tensör | (2048,) | şamandıra32 | |
İD | Metin | sicim | ||
resim | resim | (Yok, Yok, 3) | uint8 | |
resim_url | Metin | sicim | ||
metadata_url | Metin | sicim |
- Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):