wit_kaggle

  • คำอธิบาย :

Wikipedia - การแข่งขัน Kaggle จับคู่รูปภาพ / คำบรรยาย

การแข่งขันนี้จัดโดย ทีมวิจัย ของ Wikimedia Foundation โดยความร่วมมือกับ Google Research และผู้ทำงานร่วมกันภายนอกบางส่วน การแข่งขันนี้อิงจาก ชุดข้อมูล WIT ที่เผยแพร่โดย Google Research ตามรายละเอียดใน เอกสาร SIGIR นี้

ในการแข่งขันนี้ คุณจะได้สร้างโมเดลที่ดึงข้อความที่ใกล้เคียงกับรูปภาพโดยอัตโนมัติ โดยเฉพาะอย่างยิ่ง คุณจะฝึกโมเดลของคุณให้เชื่อมโยงรูปภาพที่กำหนดกับชื่อบทความหรือคำบรรยายที่ซับซ้อนในหลายภาษา แบบจำลองที่ดีที่สุดจะคำนึงถึงความละเอียดเชิงความหมายของภาพวิกิพีเดีย หากสำเร็จ คุณจะมีส่วนสนับสนุนการเข้าถึงสารานุกรมออนไลน์ที่ใหญ่ที่สุด ผู้อ่านและบรรณาธิการวิกิพีเดียหลายล้านคนจะสามารถเข้าใจ ค้นหา และอธิบายสื่อในวงกว้างได้ง่ายขึ้น ด้วยเหตุนี้ คุณจะมีส่วนร่วมในโมเดลแบบเปิดเพื่อพัฒนาการเรียนรู้สำหรับทุกคน

  • หน้าแรก : https://www.kaggle.com/c/wikipedia-image-caption/code

  • รหัสที่มา : tfds.vision_language.wit_kaggle.WitKaggle

  • รุ่น :

    • 1.0.0 : การเปิดตัวครั้งแรก ให้บริการฝึกและชุดข้อมูลจากการแข่งขัน Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data )

      เป้าหมายของการแข่งขันคือการสร้างโมเดลที่ดึงข้อความที่ใกล้เคียงกับรูปภาพโดยอัตโนมัติ โดยเฉพาะอย่างยิ่ง โมเดลควรได้รับการฝึกฝนให้เชื่อมโยงรูปภาพที่กำหนดกับชื่อบทความหรือคำอธิบายภาพที่ซับซ้อนในหลายภาษา แบบจำลองที่ดีที่สุดจะคำนึงถึงความละเอียดเชิงความหมายของภาพวิกิพีเดีย

      โปรดทราบว่าการเผยแพร่นี้ไม่ได้ให้ความจริงพื้นฐานสำหรับชุดการทดสอบ เนื่องจากการแข่งขัน Kaggle ยังไม่ได้จัดทำ

      โปรดทราบว่าการสังเกตการฝึกอบรมบางส่วนเท่านั้นที่มีข้อมูลรูปภาพที่สอดคล้องกัน ภาพที่เผยแพร่ไม่รวมภาพทั้งหมดที่มีมนุษย์ สำหรับตัวอย่างที่ไม่เกี่ยวข้องกับข้อมูลรูปภาพ จะใช้คุณลักษณะรูปภาพต่อไปนี้: image เป็นภาพว่างที่เข้ารหัสแบบไบต์ 64 embedding เป็นเวกเตอร์ของศูนย์ 2048 ตัว

      สามารถโหลดตัวอย่างสำหรับการแข่งขันได้ที่: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : เพิ่มประสิทธิภาพ Beam ไปป์ไลน์เพื่อหลีกเลี่ยงปัญหา โดยไม่สนใจแถวที่ไม่มี URL รูปภาพ นอกจากนี้ยังเพิ่มเคาน์เตอร์บีม

    • 1.0.2 (ค่าเริ่มต้น): แก้ไขการแยกวิเคราะห์ฟิลด์บูลีน

  • ขนาดการดาวน์โหลด : Unknown size

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    ขึ้นอยู่กับการกำหนดค่าที่เรียก manual_dir ควรมีไดเร็กทอรีย่อยบางส่วนต่อไปนี้:

    • รถไฟ
    • รถไฟ-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • image_pixels/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • ทดสอบ
    • test.tsv.zip
    • รูปภาพ_data_test/
      • image_pixels/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

จำเป็นต้องลงทะเบียนที่ https://www.kaggle.com/c/wikipedia-image-caption/data เพื่อรับลิงก์สำหรับดาวน์โหลดชุดข้อมูล

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : ตัวอย่างการฝึกสำหรับการแข่งขันจับคู่ภาพ/คำอธิบายภาพในวิกิพีเดีย

  • ขนาดชุดข้อมูล : 1.16 TiB

  • แยก :

แยก ตัวอย่าง
'train_with_extended_features' 37,046,386
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
attribution_passes_lang_id เทนเซอร์ บูล
caption_alt_text_description ข้อความ สตริง
caption_attribution_description ข้อความ สตริง
caption_reference_description ข้อความ สตริง
caption_title_and_reference_description ข้อความ สตริง
Context_page_description ข้อความ สตริง
Context_section_description ข้อความ สตริง
การฝัง เทนเซอร์ (2048,) ลอย32
hierarchical_section_title ข้อความ สตริง
ภาพ ภาพ (ไม่มี, ไม่มี, 3) uint8
image_url ข้อความ สตริง
is_main_image เทนเซอร์ บูล
ภาษา ข้อความ สตริง
metadata_url ข้อความ สตริง
mime_type ข้อความ สตริง
original_height เทนเซอร์ int32
ต้นฉบับ_ความกว้าง เทนเซอร์ int32
page_change_recently เทนเซอร์ บูล
page_title ข้อความ สตริง
page_url ข้อความ สตริง
section_title ข้อความ สตริง

การสร้างภาพ

wit_kaggle/test_without_gold

  • คำอธิบาย การกำหนดค่า : ตัวอย่างการทดสอบ (ไม่มีคำตอบที่เป็นทอง) สำหรับการแข่งขันจับคู่ภาพ/คำอธิบายภาพในวิกิพีเดีย

  • ขนาดชุดข้อมูล : 3.37 GiB

  • แยก :

แยก ตัวอย่าง
'test_without_gold' 92,366
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
caption_title_and_reference_description ข้อความ สตริง
การฝัง เทนเซอร์ (2048,) ลอย32
รหัส ข้อความ สตริง
ภาพ ภาพ (ไม่มี, ไม่มี, 3) uint8
image_url ข้อความ สตริง
metadata_url ข้อความ สตริง

การสร้างภาพ