wit_kaggle

  • الوصف :

ويكيبيديا - صورة / تسمية توضيحية مطابقة مسابقة Kaggle.

يتم تنظيم هذه المسابقة من قبل فريق البحث في مؤسسة ويكيميديا ​​بالتعاون مع Google Research وعدد قليل من المتعاونين الخارجيين. تستند هذه المسابقة إلى مجموعة بيانات WIT التي نشرتها Google Research كما هو مفصل في ورقة SIGIR هذه.

في هذه المسابقة ، ستنشئ نموذجًا يسترد تلقائيًا النص الأقرب للصورة. على وجه التحديد ، ستقوم بتدريب نموذجك على ربط الصور المحددة بعناوين المقالات أو التسميات التوضيحية المعقدة بلغات متعددة. ستأخذ أفضل النماذج في الحسبان الدقة الدلالية لصور ويكيبيديا. إذا نجحت ، فستساهم في إمكانية الوصول إلى أكبر موسوعة على الإنترنت. سيتمكن الملايين من قراء ومحرري ويكيبيديا من فهم الوسائط والبحث عنها ووصفها بسهولة أكبر على نطاق واسع. نتيجة لذلك ، ستساهم في نموذج مفتوح لتحسين التعلم للجميع.

  • الصفحة الرئيسية : https://www.kaggle.com/c/wikipedia-image-caption/code

  • كود المصدر : tfds.vision_language.wit_kaggle.WitKaggle

  • إصدارات :

    • 1.0.0 : الإصدار الأولي. يوفر القطار ومجموعات بيانات الاختبار من Wikipedia - Image / Caption Matching Kaggle المنافسة ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      الهدف من المسابقة هو بناء نموذج يسترد تلقائيًا النص الأقرب للصورة. على وجه التحديد ، يجب تدريب النموذج على ربط الصور المعطاة بعناوين المقالات أو التسميات التوضيحية المعقدة بلغات متعددة. ستأخذ أفضل النماذج في الحسبان الدقة الدلالية لصور ويكيبيديا.

      لاحظ أن هذا الإصدار لا يوفر الحقيقة الأساسية لمجموعة الاختبار ، حيث لم يتم توفيرها بواسطة مسابقة Kaggle حتى الآن.

      لاحظ أنه ليست كل ملاحظات التدريب لها بيانات صور مقابلة. الصور التي تم إصدارها تستثني جميع الصور التي تحتوي على بشر. بالنسبة للعينات غير المرتبطة ببيانات الصورة ، يتم استخدام ميزات الصورة التالية: image عبارة عن صورة فارغة مشفرة بايت 64 ، embedding هو متجه من 2048 صفرًا.

      يمكن تحميل العينات التي تم إصدارها للمسابقة على النحو التالي: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : تحسين خط أنابيب الشعاع لتجنب المتعثرات ، وتجاهل الصفوف بدون عنوان URL للصورة. تمت إضافة المزيد من عدادات الشعاع.

    • 1.0.2 (افتراضي): يعمل على إصلاح تحليل الحقول المنطقية.

  • حجم التنزيل : Unknown size

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    اعتمادًا على التكوين المسمى ، يجب أن يحتوي manual_dir على بعض الأدلة الفرعية التالية:

    • قطار
    • القطار- {0000x} -of-00005.tsv.zip
    • image_data_train /
      • صورة_بكسل /
      • train_image_pixels_part-00 {000-199} .csv.gz
      • resnet_embeddings /
      • train_resnet_embeddings_part-00 {000-214} .csv.gz
    • امتحان
    • test.tsv.zip
    • image_data_test /
      • صورة_بكسل /
      • test_image_pixels_part-0000 {0-4} .csv
      • resnet_embeddings /
      • test_resnet_embeddings_part-0000 {0-9} .csv

يلزم التسجيل على https://www.kaggle.com/c/wikipedia-image-caption/data للحصول على روابط لتنزيل مجموعة البيانات.

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • المفاتيح الخاضعة للإشراف (راجع المستند as_supervised ): ('image_url', 'caption_title_and_reference_description')

  • الاقتباس :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle / train_with_extended_features (التكوين الافتراضي)

  • وصف التكوين : عينات تدريبية لمسابقة Wikipedia-Image / Caption Matching.

  • حجم مجموعة البيانات : 1.16 TiB

  • الانقسامات :

انشق، مزق أمثلة
'train_with_extended_features' 37،046،386
  • هيكل الميزة :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
attribution_passes_lang_id موتر منطقي
caption_alt_text_description نص سلسلة
caption_attribution_description نص سلسلة
caption_reference_description نص سلسلة
caption_title_and_reference_description نص سلسلة
وصف_الصفحة_السياقية نص سلسلة
وصف_السياق نص سلسلة
التضمين موتر (2048 ،) تعويم 32
hierarchical_section_title نص سلسلة
صورة صورة (لا شيء ، لا شيء ، 3) uint8
رابط الصورة نص سلسلة
الصورة_الرئيسية موتر منطقي
لغة نص سلسلة
metadata_url نص سلسلة
نوع التمثيل الصامت نص سلسلة
original_height موتر int32
original_width موتر int32
page_changed_recently موتر منطقي
عنوان الصفحة نص سلسلة
رابط الصفحة نص سلسلة
عنوان القسم نص سلسلة

التصور

wit_kaggle / اختبار_بدون_ذهبية

  • وصف التكوين : عينات اختبار (بدون إجابات ذهبية) لمسابقة Wikipedia-Image / Caption Matching.

  • حجم مجموعة البيانات : 3.37 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test_without_gold' 92366
  • هيكل الميزة :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
caption_title_and_reference_description نص سلسلة
التضمين موتر (2048 ،) تعويم 32
هوية شخصية نص سلسلة
صورة صورة (لا شيء ، لا شيء ، 3) uint8
رابط الصورة نص سلسلة
metadata_url نص سلسلة

التصور