ปัญญา

  • คำอธิบาย :

ชุดข้อมูล Image Text (WIT) ที่ใช้วิกิพีเดียเป็นชุดข้อมูลหลายภาษาหลายรูปแบบขนาดใหญ่ WIT ประกอบด้วยชุดตัวอย่างข้อความรูปภาพแบบเอนทิตี 37.6 ล้านรายการที่มีรูปภาพที่ไม่ซ้ำกัน 11.5 ล้านภาพใน 108 ภาษาของวิกิพีเดีย ขนาดของมันช่วยให้ WIT สามารถใช้เป็นชุดข้อมูลก่อนการฝึกอบรมสำหรับโมเดลแมชชีนเลิร์นนิงหลายรูปแบบ

แยก ตัวอย่าง
'test' 210,166
'train' 37,046,386
'val' 261,024
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
attribution_passes_lang_id เทนเซอร์ บูล
caption_alt_text_description ข้อความ สตริง
caption_attribution_description ข้อความ สตริง
caption_reference_description ข้อความ สตริง
Context_page_description ข้อความ สตริง
Context_section_description ข้อความ สตริง
hierarchical_section_title ข้อความ สตริง
image_url ข้อความ สตริง
is_main_image เทนเซอร์ บูล
ภาษา ข้อความ สตริง
mime_type ข้อความ สตริง
original_height เทนเซอร์ int32
ต้นฉบับ_ความกว้าง เทนเซอร์ int32
page_change_recently เทนเซอร์ บูล
page_title ข้อความ สตริง
page_url ข้อความ สตริง
section_title ข้อความ สตริง
  • การอ้างอิง :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}