imagenet2012

  • وصف :

ILSVRC 2012، والمعروف باسم "ImageNet"، عبارة عن مجموعة بيانات صور منظمة وفقًا للتسلسل الهرمي لـ WordNet. يُطلق على كل مفهوم ذي معنى في WordNet، والذي يمكن وصفه بكلمات متعددة أو عبارات كلمة، اسم "مجموعة المرادفات" أو "مجموعة المرادفات". يوجد أكثر من 100.000 مجموعة تركيبية في WordNet، معظمها عبارة عن أسماء (+80.000). في ImageNet، نهدف إلى توفير 1000 صورة في المتوسط ​​لتوضيح كل مجموعة تركيبية. يتم التحكم في جودة صور كل مفهوم ويتم شرحها بواسطة الإنسان. عند اكتماله، نأمل أن تقدم ImageNet عشرات الملايين من الصور المصنفة بشكل نظيف لمعظم المفاهيم الموجودة في التسلسل الهرمي لـ WordNet.

يحتوي قسم الاختبار على 100 ألف صورة ولكن لا توجد تسميات لأنه لم يتم إصدار أي تصنيفات بشكل عام. نحن نقدم الدعم لتقسيم الاختبار من عام 2012 مع التصحيح الثانوي الذي تم إصداره في 10 أكتوبر 2019. ولتنزيل هذه البيانات يدويًا، يجب على المستخدم إجراء العمليات التالية:

  1. قم بتنزيل قسم الاختبار لعام 2012 المتاح هنا .
  2. قم بتنزيل تصحيح 10 أكتوبر 2019. يوجد رابط Google Drive للتصحيح المتوفر في نفس الصفحة.
  3. قم بدمج كرتي القطران، واستبدل أي صور في الأرشيف الأصلي يدويًا بصور من التصحيح. وفقًا للتعليمات الموجودة على image-net.org، يقوم هذا الإجراء بالكتابة فوق عدد قليل من الصور فقط.

يمكن بعد ذلك معالجة كرة القطران الناتجة بواسطة TFDS.

لتقييم دقة نموذج في تقسيم اختبار ImageNet، يجب إجراء الاستدلال على جميع الصور في التقسيم، وتصدير تلك النتائج إلى ملف نصي يجب تحميله إلى خادم تقييم ImageNet. يسمح القائمون على خادم تقييم ImageNet لمستخدم واحد بإرسال ما يصل إلى إرسالين في الأسبوع لمنع التجاوز.

لتقييم دقة قسم الاختبار، يجب أولاً إنشاء حساب على image-net.org. يجب أن تتم الموافقة على هذا الحساب من قبل مسؤول الموقع. بعد إنشاء الحساب، يمكن للمرء إرسال النتائج إلى خادم الاختبار على https://image-net.org/challenges/LSVRC/eval_server.php يتكون الإرسال من عدة ملفات نصية ASCII تتوافق مع مهام متعددة. المهمة محل الاهتمام هي "إرسال التصنيف (أعلى 5 خطأ في cls)". تبدو عينة الملف النصي الذي تم تصديره كما يلي:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

تم وصف تنسيق التصدير بالكامل في "readme.txt" ضمن مجموعة أدوات التطوير لعام 2013 المتوفرة هنا: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz يرجى الاطلاع على القسم المعنون "3.3 CLS-LOC" صيغة التقديم". باختصار، تنسيق الملف النصي هو 100000 سطر يتوافق مع كل صورة في قسم الاختبار. يتوافق كل سطر من الأعداد الصحيحة مع أعلى 5 تنبؤات مرتبة لكل صورة اختبار. تتم فهرسة الأعداد الصحيحة برقم 1 المطابق لرقم السطر في ملف التسميات المقابل. راجع labels.txt.

  • وثائق إضافية : استكشاف الأوراق باستخدام الكود

  • الصفحة الرئيسية : https://image-net.org/

  • كود المصدر : tfds.datasets.imagenet2012.Builder

  • الإصدارات :

    • 2.0.0 : إصلاح تسميات التحقق من الصحة.
    • 2.0.1 : إصلاح الترميز. لا توجد تغييرات من وجهة نظر المستخدم.
    • 3.0.0 : إصلاح التلوين على 12 صورة تقريبًا (CMYK -> RGB). إصلاح التنسيق من أجل الاتساق (تحويل صورة png الفردية إلى Jpeg). أسرع جيل القراءة مباشرة من الأرشيف.

    • 4.0.0 : (غير منشور)

    • 5.0.0 : واجهة برمجة التطبيقات المقسمة الجديدة ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (افتراضي): تمت إضافة تقسيم الاختبار.

  • حجم التحميل : Unknown size

  • حجم مجموعة البيانات : 155.84 GiB

  • تعليمات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل البيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية هي ~/tensorflow_datasets/downloads/manual/ ):
    يجب أن يحتوي ملف manual_dir على ملفين: ILSVRC2012_img_train.tar وILSVRC2012_img_val.tar. تحتاج إلى التسجيل في https://image-net.org/download-images حتى تتمكن من الحصول على الرابط لتنزيل مجموعة البيانات.

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 100.000
'train' 1,281,167
'validation' 50.000
  • هيكل الميزة :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
اسم الملف نص خيط
صورة صورة (لا شيء، لا شيء، 3) uint8
ملصق ClassLabel int64

التصور

  • الاقتباس :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}