laion400m

  • विवरण :

LAION-400M डेटासेट पूरी तरह से खुले तौर पर, स्वतंत्र रूप से पहुंच योग्य है।

इस डेटासेट के पूर्ण विवरण के लिए https://laion.ai/laion-400-open-dataset/ देखें।

LAION-400M डेटासेट में सभी छवियों और टेक्स्ट को टेक्स्ट और छवि एम्बेडिंग के बीच कोसाइन समानता की गणना करके और 0.3 से नीचे समानता वाले लोगों को हटाकर OpenAI के CLIP के साथ फ़िल्टर किया गया है। 0.3 की सीमा मानव मूल्यांकन के माध्यम से निर्धारित की गई थी और अर्थपूर्ण छवि-पाठ-सामग्री मिलान का अनुमान लगाने के लिए एक अच्छा अनुमान प्रतीत होता है।

छवि-पाठ-जोड़े कॉमन क्रॉल वेब डेटा डंप से निकाले गए हैं और 2014 और 2021 के बीच क्रॉल किए गए यादृच्छिक वेब पेजों से हैं।

विभाजित करना उदाहरण
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उदाहरण ( tfds.as_dataframe ): गुम है।

  • उद्धरण :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • फ़ीचर संरचना :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण मूल्य पहुंच
फीचर्सडिक्ट
कैप्शन मूलपाठ डोरी HTML ऑल्ट-टेक्स्ट विशेषता
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8 छवि
लाइसेंस मूलपाठ डोरी क्रिएटिव कॉमन्स लाइसेंस का प्रकार (यदि लागू हो)
एनएसएफडब्ल्यू क्लास लेबल int64 NSFW टैग (CLIP के साथ पता लगाया गया)। असंबद्ध और लुप्त टैग को UNTAGGED से बदल दिया जाता है
मूल_ऊंचाई अदिश int32 छवि की मूल ऊंचाई
मूल_चौड़ाई अदिश int32 छवि की मूल चौड़ाई
समानता अदिश फ्लोट64 पाठ और छवि एम्बेडिंग के बीच कोसाइन समानता स्कोर। गुम मान डिफ़ॉल्ट रूप से -1.0 हैं [0.0, 1.0]
यूआरएल मूलपाठ डोरी छवि यूआरएल

laion400m/एम्बेडिंग

  • फ़ीचर संरचना :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण मूल्य पहुंच
फीचर्सडिक्ट
कैप्शन मूलपाठ डोरी HTML ऑल्ट-टेक्स्ट विशेषता
छवि_एम्बेडिंग टेन्सर (512,) फ्लोट16 क्लिप छवि एम्बेडिंग
लाइसेंस मूलपाठ डोरी क्रिएटिव कॉमन्स लाइसेंस का प्रकार (यदि लागू हो)
एनएसएफडब्ल्यू क्लास लेबल int64 NSFW टैग (CLIP के साथ पता लगाया गया)। असंबद्ध और लुप्त टैग को UNTAGGED से बदल दिया जाता है
मूल_ऊंचाई अदिश int32 छवि की मूल ऊंचाई
मूल_चौड़ाई अदिश int32 छवि की मूल चौड़ाई
समानता अदिश फ्लोट64 पाठ और छवि एम्बेडिंग के बीच कोसाइन समानता स्कोर। गुम मान डिफ़ॉल्ट रूप से -1.0 हैं [0.0, 1.0]
text_embedding टेन्सर (512,) फ्लोट16 क्लिप टेक्स्ट एम्बेडिंग
यूआरएल मूलपाठ डोरी छवि यूआरएल