- คำอธิบาย :
Wikipedia - การแข่งขัน Kaggle จับคู่รูปภาพ / คำบรรยาย
การแข่งขันนี้จัดโดย ทีมวิจัย ของ Wikimedia Foundation โดยความร่วมมือกับ Google Research และผู้ทำงานร่วมกันภายนอกบางส่วน การแข่งขันนี้อิงจาก ชุดข้อมูล WIT ที่เผยแพร่โดย Google Research ตามรายละเอียดใน เอกสาร SIGIR นี้
ในการแข่งขันนี้ คุณจะได้สร้างโมเดลที่ดึงข้อความที่ใกล้เคียงกับรูปภาพโดยอัตโนมัติ โดยเฉพาะอย่างยิ่ง คุณจะฝึกโมเดลของคุณให้เชื่อมโยงรูปภาพที่กำหนดกับชื่อบทความหรือคำบรรยายที่ซับซ้อนในหลายภาษา แบบจำลองที่ดีที่สุดจะคำนึงถึงความละเอียดเชิงความหมายของภาพวิกิพีเดีย หากสำเร็จ คุณจะมีส่วนสนับสนุนการเข้าถึงสารานุกรมออนไลน์ที่ใหญ่ที่สุด ผู้อ่านและบรรณาธิการวิกิพีเดียหลายล้านคนจะสามารถเข้าใจ ค้นหา และอธิบายสื่อในวงกว้างได้ง่ายขึ้น ด้วยเหตุนี้ คุณจะมีส่วนร่วมในโมเดลแบบเปิดเพื่อพัฒนาการเรียนรู้สำหรับทุกคน
หน้าแรก : https://www.kaggle.com/c/wikipedia-image-caption/code
รหัสที่มา :
tfds.vision_language.wit_kaggle.WitKaggle
รุ่น :
1.0.0
: การเปิดตัวครั้งแรก ให้บริการฝึกและชุดข้อมูลจากการแข่งขัน Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data )เป้าหมายของการแข่งขันคือการสร้างโมเดลที่ดึงข้อความที่ใกล้เคียงกับรูปภาพโดยอัตโนมัติ โดยเฉพาะอย่างยิ่ง โมเดลควรได้รับการฝึกฝนให้เชื่อมโยงรูปภาพที่กำหนดกับชื่อบทความหรือคำอธิบายภาพที่ซับซ้อนในหลายภาษา แบบจำลองที่ดีที่สุดจะคำนึงถึงความละเอียดเชิงความหมายของภาพวิกิพีเดีย
โปรดทราบว่าการเผยแพร่นี้ไม่ได้ให้ความจริงพื้นฐานสำหรับชุดการทดสอบ เนื่องจากการแข่งขัน Kaggle ยังไม่ได้จัดทำ
โปรดทราบว่าการสังเกตการฝึกอบรมบางส่วนเท่านั้นที่มีข้อมูลรูปภาพที่สอดคล้องกัน ภาพที่เผยแพร่ไม่รวมภาพทั้งหมดที่มีมนุษย์ สำหรับตัวอย่างที่ไม่เกี่ยวข้องกับข้อมูลรูปภาพ จะใช้คุณลักษณะรูปภาพต่อไปนี้:
image
เป็นภาพว่างที่เข้ารหัสแบบไบต์ 64embedding
เป็นเวกเตอร์ของศูนย์ 2048 ตัวสามารถโหลดตัวอย่างสำหรับการแข่งขันได้ที่:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: เพิ่มประสิทธิภาพ Beam ไปป์ไลน์เพื่อหลีกเลี่ยงปัญหา โดยไม่สนใจแถวที่ไม่มี URL รูปภาพ นอกจากนี้ยังเพิ่มเคาน์เตอร์บีม1.0.2
(ค่าเริ่มต้น): แก้ไขการแยกวิเคราะห์ฟิลด์บูลีน
ขนาดการดาวน์โหลด :
Unknown size
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):
ขึ้นอยู่กับการกำหนดค่าที่เรียก manual_dir ควรมีไดเร็กทอรีย่อยบางส่วนต่อไปนี้:- รถไฟ
- รถไฟ-{0000x}-of-00005.tsv.zip
- image_data_train/
- image_pixels/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- ทดสอบ
- test.tsv.zip
- รูปภาพ_data_test/
- image_pixels/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
จำเป็นต้องลงทะเบียนที่ https://www.kaggle.com/c/wikipedia-image-caption/data เพื่อรับลิงก์สำหรับดาวน์โหลดชุดข้อมูล
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('image_url', 'caption_title_and_reference_description')
การอ้างอิง :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า : ตัวอย่างการฝึกสำหรับการแข่งขันจับคู่ภาพ/คำอธิบายภาพในวิกิพีเดีย
ขนาดชุดข้อมูล :
1.16 TiB
แยก :
แยก | ตัวอย่าง |
---|---|
'train_with_extended_features' | 37,046,386 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
attribution_passes_lang_id | เทนเซอร์ | บูล | ||
caption_alt_text_description | ข้อความ | สตริง | ||
caption_attribution_description | ข้อความ | สตริง | ||
caption_reference_description | ข้อความ | สตริง | ||
caption_title_and_reference_description | ข้อความ | สตริง | ||
Context_page_description | ข้อความ | สตริง | ||
Context_section_description | ข้อความ | สตริง | ||
การฝัง | เทนเซอร์ | (2048,) | ลอย32 | |
hierarchical_section_title | ข้อความ | สตริง | ||
ภาพ | ภาพ | (ไม่มี, ไม่มี, 3) | uint8 | |
image_url | ข้อความ | สตริง | ||
is_main_image | เทนเซอร์ | บูล | ||
ภาษา | ข้อความ | สตริง | ||
metadata_url | ข้อความ | สตริง | ||
mime_type | ข้อความ | สตริง | ||
original_height | เทนเซอร์ | int32 | ||
ต้นฉบับ_ความกว้าง | เทนเซอร์ | int32 | ||
page_change_recently | เทนเซอร์ | บูล | ||
page_title | ข้อความ | สตริง | ||
page_url | ข้อความ | สตริง | ||
section_title | ข้อความ | สตริง |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
คำอธิบาย การกำหนดค่า : ตัวอย่างการทดสอบ (ไม่มีคำตอบที่เป็นทอง) สำหรับการแข่งขันจับคู่ภาพ/คำอธิบายภาพในวิกิพีเดีย
ขนาดชุดข้อมูล :
3.37 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test_without_gold' | 92,366 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
caption_title_and_reference_description | ข้อความ | สตริง | ||
การฝัง | เทนเซอร์ | (2048,) | ลอย32 | |
รหัส | ข้อความ | สตริง | ||
ภาพ | ภาพ | (ไม่มี, ไม่มี, 3) | uint8 | |
image_url | ข้อความ | สตริง | ||
metadata_url | ข้อความ | สตริง |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):