- विवरण :
LAION-400M डेटासेट पूरी तरह से खुले तौर पर, स्वतंत्र रूप से पहुंच योग्य है।
इस डेटासेट के पूर्ण विवरण के लिए https://laion.ai/laion-400-open-dataset/ देखें।
LAION-400M डेटासेट में सभी छवियों और टेक्स्ट को टेक्स्ट और छवि एम्बेडिंग के बीच कोसाइन समानता की गणना करके और 0.3 से नीचे समानता वाले लोगों को हटाकर OpenAI के CLIP के साथ फ़िल्टर किया गया है। 0.3 की सीमा मानव मूल्यांकन के माध्यम से निर्धारित की गई थी और अर्थपूर्ण छवि-पाठ-सामग्री मिलान का अनुमान लगाने के लिए एक अच्छा अनुमान प्रतीत होता है।
छवि-पाठ-जोड़े कॉमन क्रॉल वेब डेटा डंप से निकाले गए हैं और 2014 और 2021 के बीच क्रॉल किए गए यादृच्छिक वेब पेजों से हैं।
स्रोत कोड :
tfds.vision_language.laion400m.Laion400m
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
Unknown size
डेटासेट आकार :
Unknown size
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir
(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/
) में डाउनलोड करना होगा:
https://laion.ai/blog/laion-400-open-dataset/ पर "डाउनलोड जानकारी" अनुभाग देखेंऑटो-कैश्ड ( दस्तावेज़ीकरण ): अज्ञात
विभाजन :
विभाजित करना | उदाहरण |
---|
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ): गुम है।
उद्धरण :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/images (डिफ़ॉल्ट कॉन्फ़िगरेशन)
- फ़ीचर संरचना :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण | मूल्य पहुंच |
---|---|---|---|---|---|
फीचर्सडिक्ट | |||||
कैप्शन | मूलपाठ | डोरी | HTML ऑल्ट-टेक्स्ट विशेषता | ||
छवि | छवि | (कोई नहीं, कोई नहीं, 3) | uint8 | छवि | |
लाइसेंस | मूलपाठ | डोरी | क्रिएटिव कॉमन्स लाइसेंस का प्रकार (यदि लागू हो) | ||
एनएसएफडब्ल्यू | क्लास लेबल | int64 | NSFW टैग (CLIP के साथ पता लगाया गया)। असंबद्ध और लुप्त टैग को UNTAGGED से बदल दिया जाता है | ||
मूल_ऊंचाई | अदिश | int32 | छवि की मूल ऊंचाई | ||
मूल_चौड़ाई | अदिश | int32 | छवि की मूल चौड़ाई | ||
समानता | अदिश | फ्लोट64 | पाठ और छवि एम्बेडिंग के बीच कोसाइन समानता स्कोर। गुम मान डिफ़ॉल्ट रूप से -1.0 हैं | [0.0, 1.0] | |
यूआरएल | मूलपाठ | डोरी | छवि यूआरएल |
laion400m/एम्बेडिंग
- फ़ीचर संरचना :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण | मूल्य पहुंच |
---|---|---|---|---|---|
फीचर्सडिक्ट | |||||
कैप्शन | मूलपाठ | डोरी | HTML ऑल्ट-टेक्स्ट विशेषता | ||
छवि_एम्बेडिंग | टेन्सर | (512,) | फ्लोट16 | क्लिप छवि एम्बेडिंग | |
लाइसेंस | मूलपाठ | डोरी | क्रिएटिव कॉमन्स लाइसेंस का प्रकार (यदि लागू हो) | ||
एनएसएफडब्ल्यू | क्लास लेबल | int64 | NSFW टैग (CLIP के साथ पता लगाया गया)। असंबद्ध और लुप्त टैग को UNTAGGED से बदल दिया जाता है | ||
मूल_ऊंचाई | अदिश | int32 | छवि की मूल ऊंचाई | ||
मूल_चौड़ाई | अदिश | int32 | छवि की मूल चौड़ाई | ||
समानता | अदिश | फ्लोट64 | पाठ और छवि एम्बेडिंग के बीच कोसाइन समानता स्कोर। गुम मान डिफ़ॉल्ट रूप से -1.0 हैं | [0.0, 1.0] | |
text_embedding | टेन्सर | (512,) | फ्लोट16 | क्लिप टेक्स्ट एम्बेडिंग | |
यूआरएल | मूलपाठ | डोरी | छवि यूआरएल |