- الوصف :
مجموعة بيانات نص الصورة (WIT) المستندة إلى ويكيبيديا هي مجموعة بيانات كبيرة متعددة الوسائط متعددة اللغات. يتكون برنامج WIT من مجموعة منسقة من 37.6 مليون أمثلة نصية غنية بالصور مع 11.5 مليون صورة فريدة عبر 108 لغات ويكيبيديا. يتيح حجمها إمكانية استخدام WIT كمجموعة بيانات قبل التدريب لنماذج التعلم الآلي متعددة الوسائط.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/google-research-datasets/wit/
كود المصدر :
tfds.vision_language.wit.Wit
إصدارات :
-
1.0.0
: الإصدار الأولي. يقوم بتحميل مجموعة بيانات WIT من https://storage.googleapis.com/gresearch/wit/ -
1.1.0
(افتراضي): إضافةval
test
الانقسامات.
-
حجم التحميل :
25.20 GiB
حجم مجموعة البيانات :
81.17 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 210166 |
'train' | 37،046،386 |
'val' | 261،024 |
- هيكل الميزة :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
attribution_passes_lang_id | موتر | منطقي | ||
caption_alt_text_description | نص | سلسلة | ||
caption_attribution_description | نص | سلسلة | ||
caption_reference_description | نص | سلسلة | ||
وصف_الصفحة_السياقية | نص | سلسلة | ||
وصف_السياق | نص | سلسلة | ||
hierarchical_section_title | نص | سلسلة | ||
رابط الصورة | نص | سلسلة | ||
الصورة_الرئيسية | موتر | منطقي | ||
لغة | نص | سلسلة | ||
نوع التمثيل الصامت | نص | سلسلة | ||
original_height | موتر | int32 | ||
original_width | موتر | int32 | ||
page_changed_recently | موتر | منطقي | ||
عنوان الصفحة | نص | سلسلة | ||
رابط الصفحة | نص | سلسلة | ||
عنوان القسم | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}