वैचारिक_12मी

सन्दर्भ:

इस डेटासेट को TFDS में लोड करने के लिए निम्नलिखित कमांड का उपयोग करें:

ds = tfds.load('huggingface:conceptual_12m')

विवरण :

Conceptual 12M is a large-scale dataset of 12 million
image-text pairs specifically meant to be used for visionand-language pre-training.
Its data collection pipeline is a relaxed version of the one used in Conceptual Captions 3M.

लाइसेंस : डेटासेट का उपयोग किसी भी उद्देश्य के लिए स्वतंत्र रूप से किया जा सकता है, हालांकि डेटा स्रोत के रूप में Google LLC ("Google") की स्वीकृति की सराहना की जाएगी। डेटासेट बिना किसी व्यक्त या निहित वारंटी के "जैसा है वैसा" प्रदान किया जाता है। Google डेटासेट के उपयोग के परिणामस्वरूप प्रत्यक्ष या अप्रत्यक्ष रूप से होने वाली किसी भी क्षति के लिए सभी दायित्वों से इनकार करता है।
संस्करण : 0.0.0
विभाजन :

विभाजित करना	उदाहरण
`'train'`	12423374

विशेषताएँ :

{
    "image_url": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "caption": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}