- الوصف :
ويكيبيديا - صورة / تسمية توضيحية مطابقة مسابقة Kaggle.
يتم تنظيم هذه المسابقة من قبل فريق البحث في مؤسسة ويكيميديا بالتعاون مع Google Research وعدد قليل من المتعاونين الخارجيين. تستند هذه المسابقة إلى مجموعة بيانات WIT التي نشرتها Google Research كما هو مفصل في ورقة SIGIR هذه.
في هذه المسابقة ، ستنشئ نموذجًا يسترد تلقائيًا النص الأقرب للصورة. على وجه التحديد ، ستقوم بتدريب نموذجك على ربط الصور المحددة بعناوين المقالات أو التسميات التوضيحية المعقدة بلغات متعددة. ستأخذ أفضل النماذج في الحسبان الدقة الدلالية لصور ويكيبيديا. إذا نجحت ، فستساهم في إمكانية الوصول إلى أكبر موسوعة على الإنترنت. سيتمكن الملايين من قراء ومحرري ويكيبيديا من فهم الوسائط والبحث عنها ووصفها بسهولة أكبر على نطاق واسع. نتيجة لذلك ، ستساهم في نموذج مفتوح لتحسين التعلم للجميع.
الصفحة الرئيسية : https://www.kaggle.com/c/wikipedia-image-caption/code
كود المصدر :
tfds.vision_language.wit_kaggle.WitKaggle
إصدارات :
1.0.0
: الإصدار الأولي. يوفر القطار ومجموعات بيانات الاختبار من Wikipedia - Image / Caption Matching Kaggle المنافسة ( https://www.kaggle.com/c/wikipedia-image-caption/data ).الهدف من المسابقة هو بناء نموذج يسترد تلقائيًا النص الأقرب للصورة. على وجه التحديد ، يجب تدريب النموذج على ربط الصور المعطاة بعناوين المقالات أو التسميات التوضيحية المعقدة بلغات متعددة. ستأخذ أفضل النماذج في الحسبان الدقة الدلالية لصور ويكيبيديا.
لاحظ أن هذا الإصدار لا يوفر الحقيقة الأساسية لمجموعة الاختبار ، حيث لم يتم توفيرها بواسطة مسابقة Kaggle حتى الآن.
لاحظ أنه ليست كل ملاحظات التدريب لها بيانات صور مقابلة. الصور التي تم إصدارها تستثني جميع الصور التي تحتوي على بشر. بالنسبة للعينات غير المرتبطة ببيانات الصورة ، يتم استخدام ميزات الصورة التالية:
image
عبارة عن صورة فارغة مشفرة بايت 64 ،embedding
هو متجه من 2048 صفرًا.يمكن تحميل العينات التي تم إصدارها للمسابقة على النحو التالي:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: تحسين خط أنابيب الشعاع لتجنب المتعثرات ، وتجاهل الصفوف بدون عنوان URL للصورة. تمت إضافة المزيد من عدادات الشعاع.1.0.2
(افتراضي): يعمل على إصلاح تحليل الحقول المنطقية.
حجم التنزيل :
Unknown size
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/
):
اعتمادًا على التكوين المسمى ، يجب أن يحتوي manual_dir على بعض الأدلة الفرعية التالية:- قطار
- القطار- {0000x} -of-00005.tsv.zip
- image_data_train /
- صورة_بكسل /
- train_image_pixels_part-00 {000-199} .csv.gz
- resnet_embeddings /
- train_resnet_embeddings_part-00 {000-214} .csv.gz
- امتحان
- test.tsv.zip
- image_data_test /
- صورة_بكسل /
- test_image_pixels_part-0000 {0-4} .csv
- resnet_embeddings /
- test_resnet_embeddings_part-0000 {0-9} .csv
يلزم التسجيل على https://www.kaggle.com/c/wikipedia-image-caption/data للحصول على روابط لتنزيل مجموعة البيانات.
التخزين المؤقت التلقائي ( التوثيق ): لا
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('image_url', 'caption_title_and_reference_description')
الاقتباس :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle / train_with_extended_features (التكوين الافتراضي)
وصف التكوين : عينات تدريبية لمسابقة Wikipedia-Image / Caption Matching.
حجم مجموعة البيانات :
1.16 TiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train_with_extended_features' | 37،046،386 |
- هيكل الميزة :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
attribution_passes_lang_id | موتر | منطقي | ||
caption_alt_text_description | نص | سلسلة | ||
caption_attribution_description | نص | سلسلة | ||
caption_reference_description | نص | سلسلة | ||
caption_title_and_reference_description | نص | سلسلة | ||
وصف_الصفحة_السياقية | نص | سلسلة | ||
وصف_السياق | نص | سلسلة | ||
التضمين | موتر | (2048 ،) | تعويم 32 | |
hierarchical_section_title | نص | سلسلة | ||
صورة | صورة | (لا شيء ، لا شيء ، 3) | uint8 | |
رابط الصورة | نص | سلسلة | ||
الصورة_الرئيسية | موتر | منطقي | ||
لغة | نص | سلسلة | ||
metadata_url | نص | سلسلة | ||
نوع التمثيل الصامت | نص | سلسلة | ||
original_height | موتر | int32 | ||
original_width | موتر | int32 | ||
page_changed_recently | موتر | منطقي | ||
عنوان الصفحة | نص | سلسلة | ||
رابط الصفحة | نص | سلسلة | ||
عنوان القسم | نص | سلسلة |
- الشكل ( tfds.show_examples ):
- أمثلة ( tfds.as_dataframe ):
wit_kaggle / اختبار_بدون_ذهبية
وصف التكوين : عينات اختبار (بدون إجابات ذهبية) لمسابقة Wikipedia-Image / Caption Matching.
حجم مجموعة البيانات :
3.37 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test_without_gold' | 92366 |
- هيكل الميزة :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
caption_title_and_reference_description | نص | سلسلة | ||
التضمين | موتر | (2048 ،) | تعويم 32 | |
هوية شخصية | نص | سلسلة | ||
صورة | صورة | (لا شيء ، لا شيء ، 3) | uint8 | |
رابط الصورة | نص | سلسلة | ||
metadata_url | نص | سلسلة |
- الشكل ( tfds.show_examples ):
- أمثلة ( tfds.as_dataframe ):