wit_kaggle

  • विवरण :

विकिपीडिया - इमेज/कैप्शन मैचिंग कागल प्रतियोगिता।

यह प्रतियोगिता Google अनुसंधान और कुछ बाहरी सहयोगियों के सहयोग से विकिमीडिया फ़ाउंडेशन में अनुसंधान टीम द्वारा आयोजित की जाती है। यह प्रतियोगिता Google रिसर्च द्वारा प्रकाशित WIT डेटासेट पर आधारित है, जैसा कि इस SIGIR पेपर में विस्तृत है।

इस प्रतियोगिता में, आप एक मॉडल का निर्माण करेंगे जो स्वचालित रूप से एक छवि के निकटतम पाठ को पुनः प्राप्त करता है। विशेष रूप से, आप अपने मॉडल को कई भाषाओं में लेख के शीर्षकों या जटिल अनुशीर्षकों के साथ दी गई छवियों को संबद्ध करने के लिए प्रशिक्षित करेंगे। सर्वोत्तम मॉडल विकिपीडिया छवियों के सिमेंटिक ग्रैन्युलैरिटी के लिए जिम्मेदार होंगे। सफल होने पर, आप सबसे बड़े ऑनलाइन विश्वकोश की पहुंच में योगदान देंगे। लाखों विकिपीडिया पाठक और संपादक बड़े पैमाने पर मीडिया को अधिक आसानी से समझने, खोजने और उसका वर्णन करने में सक्षम होंगे। नतीजतन, आप सभी के लिए सीखने में सुधार के लिए एक खुले मॉडल में योगदान देंगे।

  • होमपेज : https://www.kaggle.com/c/wikipedia-image-caption/code

  • स्रोत कोड : tfds.vision_language.wit_kaggle.WitKaggle

  • संस्करण :

    • 1.0.0 : प्रारंभिक रिलीज। यह विकिपीडिया - इमेज/कैप्शन मैचिंग कागल प्रतियोगिता ( https://www.kaggle.com/c/wikipedia-image-caption/data ) से ट्रेन और टेस्ट डेटासेट प्रदान करता है।

      प्रतियोगिता का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो स्वचालित रूप से एक छवि के निकटतम पाठ को पुनः प्राप्त करता है। विशेष रूप से, मॉडल को कई भाषाओं में दिए गए चित्रों को लेख के शीर्षक या जटिल कैप्शन के साथ जोड़ने के लिए प्रशिक्षित किया जाना चाहिए। सर्वोत्तम मॉडल विकिपीडिया छवियों के सिमेंटिक ग्रैन्युलैरिटी के लिए जिम्मेदार होंगे।

      ध्यान दें कि यह रिलीज़ परीक्षण सेट के लिए जमीनी सच्चाई प्रदान नहीं करती है, क्योंकि यह अभी तक कागल प्रतियोगिता द्वारा प्रदान नहीं किया गया है।

      ध्यान दें कि सभी प्रशिक्षण अवलोकनों में संबंधित छवि डेटा नहीं होता है। जारी की गई छवियों में मनुष्यों वाली सभी छवियां शामिल नहीं हैं। उन नमूनों के लिए जो छवि डेटा से संबद्ध नहीं हैं, निम्नलिखित छवि सुविधाओं का उपयोग किया जाता है: image एक बाइट -64 एन्कोडेड रिक्त छवि है, embedding 2048 शून्य का वेक्टर है।

      प्रतियोगिता के लिए जारी किए गए tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold") को इस प्रकार लोड किया जा सकता है:

    • 1.0.1 : संघर्ष करने वालों से बचने के लिए बीम पाइपलाइन का अनुकूलन करें, छवि URL के बिना पंक्तियों को अनदेखा करें। और बीम काउंटर भी जोड़े।

    • 1.0.2 (डिफ़ॉल्ट): बूलियन फ़ील्ड की पार्सिंग ठीक करता है।

  • डाउनलोड आकार : Unknown size

  • मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
    बुलाए गए कॉन्फ़िगरेशन के आधार पर, मैन्युअल_डीआईआर में निम्न में से कुछ उपनिर्देशिकाएं होनी चाहिए:

    • रेल गाडी
    • ट्रेन-{0000x}-of-00005.tsv.zip
    • इमेज_डेटा_ट्रेन/
      • इमेज_पिक्सेल/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • परीक्षण
    • test.tsv.zip
    • इमेज_डेटा_टेस्ट/
      • इमेज_पिक्सेल/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

डेटासेट डाउनलोड करने के लिए लिंक प्राप्त करने के लिए https://www.kaggle.com/c/wikipedia-image-caption/data पर पंजीकरण की आवश्यकता है।

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण : विकिपीडिया-इमेज/कैप्शन मिलान प्रतियोगिता के लिए प्रशिक्षण नमूने।

  • डेटासेट का आकार : 1.16 TiB

  • विभाजन :

विभाजित करना उदाहरण
'train_with_extended_features' 37,046,386
  • फ़ीचर संरचना :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
एट्रिब्यूशन_पास_लैंग_आईडी टेन्सर बूल
कैप्शन_alt_text_description मूलपाठ डोरी
कैप्शन_एट्रिब्यूशन_डिस्क्रिप्शन मूलपाठ डोरी
कैप्शन_संदर्भ_विवरण मूलपाठ डोरी
कैप्शन_शीर्षक_और_संदर्भ_विवरण मूलपाठ डोरी
प्रसंग_पृष्ठ_विवरण मूलपाठ डोरी
संदर्भ_अनुभाग_विवरण मूलपाठ डोरी
एम्बेडिंग टेन्सर (2048,) फ्लोट32
श्रेणीबद्ध_अनुभाग_शीर्षक मूलपाठ डोरी
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
छवि यूआरएल मूलपाठ डोरी
is_main_image टेन्सर बूल
भाषा: हिन्दी मूलपाठ डोरी
मेटाडेटा_url मूलपाठ डोरी
माइम प्रकार मूलपाठ डोरी
मूल_ऊंचाई टेन्सर int32
मूल_चौड़ाई टेन्सर int32
page_changed_recently टेन्सर बूल
पृष्ठ का शीर्षक मूलपाठ डोरी
पेज यूआरएल मूलपाठ डोरी
अनुभाग शीर्षक मूलपाठ डोरी

VISUALIZATION

wit_kaggle/test_without_gold

  • कॉन्फिग विवरण : विकिपीडिया-इमेज/कैप्शन मैचिंग प्रतियोगिता के लिए टेस्ट सैंपल (बिना गोल्ड उत्तर के)।

  • डेटासेट का आकार : 3.37 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test_without_gold' 92,366
  • फ़ीचर संरचना :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
कैप्शन_शीर्षक_और_संदर्भ_विवरण मूलपाठ डोरी
एम्बेडिंग टेन्सर (2048,) फ्लोट32
पहचान मूलपाठ डोरी
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
छवि यूआरएल मूलपाठ डोरी
मेटाडेटा_url मूलपाठ डोरी

VISUALIZATION

,

  • विवरण :

विकिपीडिया - इमेज/कैप्शन मैचिंग कागल प्रतियोगिता।

यह प्रतियोगिता Google अनुसंधान और कुछ बाहरी सहयोगियों के सहयोग से विकिमीडिया फ़ाउंडेशन में अनुसंधान टीम द्वारा आयोजित की जाती है। यह प्रतियोगिता Google रिसर्च द्वारा प्रकाशित WIT डेटासेट पर आधारित है, जैसा कि इस SIGIR पेपर में विस्तृत है।

इस प्रतियोगिता में, आप एक मॉडल का निर्माण करेंगे जो स्वचालित रूप से एक छवि के निकटतम पाठ को पुनः प्राप्त करता है। विशेष रूप से, आप अपने मॉडल को कई भाषाओं में लेख के शीर्षकों या जटिल अनुशीर्षकों के साथ दी गई छवियों को संबद्ध करने के लिए प्रशिक्षित करेंगे। सर्वोत्तम मॉडल विकिपीडिया छवियों के सिमेंटिक ग्रैन्युलैरिटी के लिए जिम्मेदार होंगे। सफल होने पर, आप सबसे बड़े ऑनलाइन विश्वकोश की पहुंच में योगदान देंगे। लाखों विकिपीडिया पाठक और संपादक बड़े पैमाने पर मीडिया को अधिक आसानी से समझने, खोजने और उसका वर्णन करने में सक्षम होंगे। नतीजतन, आप सभी के लिए सीखने में सुधार के लिए एक खुले मॉडल में योगदान देंगे।

  • होमपेज : https://www.kaggle.com/c/wikipedia-image-caption/code

  • स्रोत कोड : tfds.vision_language.wit_kaggle.WitKaggle

  • संस्करण :

    • 1.0.0 : प्रारंभिक रिलीज। यह विकिपीडिया - इमेज/कैप्शन मैचिंग कागल प्रतियोगिता ( https://www.kaggle.com/c/wikipedia-image-caption/data ) से ट्रेन और टेस्ट डेटासेट प्रदान करता है।

      प्रतियोगिता का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो स्वचालित रूप से एक छवि के निकटतम पाठ को पुनः प्राप्त करता है। विशेष रूप से, मॉडल को कई भाषाओं में दिए गए चित्रों को लेख के शीर्षक या जटिल कैप्शन के साथ जोड़ने के लिए प्रशिक्षित किया जाना चाहिए। सर्वोत्तम मॉडल विकिपीडिया छवियों के सिमेंटिक ग्रैन्युलैरिटी के लिए जिम्मेदार होंगे।

      ध्यान दें कि यह रिलीज़ परीक्षण सेट के लिए जमीनी सच्चाई प्रदान नहीं करती है, क्योंकि यह अभी तक कागल प्रतियोगिता द्वारा प्रदान नहीं किया गया है।

      ध्यान दें कि सभी प्रशिक्षण अवलोकनों में संबंधित छवि डेटा नहीं होता है। जारी की गई छवियों में मनुष्यों वाली सभी छवियां शामिल नहीं हैं। उन नमूनों के लिए जो छवि डेटा से संबद्ध नहीं हैं, निम्नलिखित छवि सुविधाओं का उपयोग किया जाता है: image एक बाइट -64 एन्कोडेड रिक्त छवि है, embedding 2048 शून्य का वेक्टर है।

      प्रतियोगिता के लिए जारी किए गए tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold") को इस प्रकार लोड किया जा सकता है:

    • 1.0.1 : संघर्ष करने वालों से बचने के लिए बीम पाइपलाइन का अनुकूलन करें, छवि URL के बिना पंक्तियों को अनदेखा करें। और बीम काउंटर भी जोड़े।

    • 1.0.2 (डिफ़ॉल्ट): बूलियन फ़ील्ड की पार्सिंग ठीक करता है।

  • डाउनलोड आकार : Unknown size

  • मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
    बुलाए गए कॉन्फ़िगरेशन के आधार पर, मैन्युअल_डीआईआर में निम्न में से कुछ उपनिर्देशिकाएं होनी चाहिए:

    • रेल गाडी
    • ट्रेन-{0000x}-of-00005.tsv.zip
    • इमेज_डेटा_ट्रेन/
      • इमेज_पिक्सेल/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • परीक्षण
    • test.tsv.zip
    • इमेज_डेटा_टेस्ट/
      • इमेज_पिक्सेल/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

डेटासेट डाउनलोड करने के लिए लिंक प्राप्त करने के लिए https://www.kaggle.com/c/wikipedia-image-caption/data पर पंजीकरण की आवश्यकता है।

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण : विकिपीडिया-इमेज/कैप्शन मिलान प्रतियोगिता के लिए प्रशिक्षण नमूने।

  • डेटासेट का आकार : 1.16 TiB

  • विभाजन :

विभाजित करना उदाहरण
'train_with_extended_features' 37,046,386
  • फ़ीचर संरचना :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
एट्रिब्यूशन_पास_लैंग_आईडी टेन्सर बूल
कैप्शन_alt_text_description मूलपाठ डोरी
कैप्शन_एट्रिब्यूशन_डिस्क्रिप्शन मूलपाठ डोरी
कैप्शन_संदर्भ_विवरण मूलपाठ डोरी
कैप्शन_शीर्षक_और_संदर्भ_विवरण मूलपाठ डोरी
प्रसंग_पृष्ठ_विवरण मूलपाठ डोरी
संदर्भ_अनुभाग_विवरण मूलपाठ डोरी
एम्बेडिंग टेन्सर (2048,) फ्लोट32
श्रेणीबद्ध_अनुभाग_शीर्षक मूलपाठ डोरी
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
छवि यूआरएल मूलपाठ डोरी
is_main_image टेन्सर बूल
भाषा: हिन्दी मूलपाठ डोरी
मेटाडेटा_url मूलपाठ डोरी
माइम प्रकार मूलपाठ डोरी
मूल_ऊंचाई टेन्सर int32
मूल_चौड़ाई टेन्सर int32
page_changed_recently टेन्सर बूल
पृष्ठ का शीर्षक मूलपाठ डोरी
पेज यूआरएल मूलपाठ डोरी
अनुभाग शीर्षक मूलपाठ डोरी

VISUALIZATION

wit_kaggle/test_without_gold

  • कॉन्फिग विवरण : विकिपीडिया-इमेज/कैप्शन मैचिंग प्रतियोगिता के लिए टेस्ट सैंपल (बिना गोल्ड उत्तर के)।

  • डेटासेट का आकार : 3.37 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test_without_gold' 92,366
  • फ़ीचर संरचना :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
कैप्शन_शीर्षक_और_संदर्भ_विवरण मूलपाठ डोरी
एम्बेडिंग टेन्सर (2048,) फ्लोट32
पहचान मूलपाठ डोरी
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
छवि यूआरएल मूलपाठ डोरी
मेटाडेटा_url मूलपाठ डोरी

VISUALIZATION