לאיון 400 מ'

  • תיאור :

מערך הנתונים של LAION-400M פתוח לחלוטין, נגיש באופן חופשי.

בדוק https://laion.ai/laion-400-open-dataset/ לתיאור המלא של מערך הנתונים הזה.

כל התמונות והטקסטים במערך הנתונים של LAION-400M סוננו עם ה-CLIP של OpenAI על ידי חישוב הדמיון הקוסינוס בין הטבעת הטקסט והתמונה והורדת אלה עם דמיון מתחת ל-0.3. הסף של 0.3 נקבע באמצעות הערכות אנושיות ונראה כי הוא היוריסטיקה טובה להערכת התאמת תמונה-טקסט-תוכן סמנטית.

צמדי התמונה-טקסט חולצו מ-Common Crawl Web Data dump והם מדפי אינטרנט אקראיים שנסרקו בין 2014 ל-2021.

לְפַצֵל דוגמאות
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (תצורת ברירת המחדל)

  • מבנה תכונה :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מַחלָקָה צוּרָה Dtype תֵאוּר טווח ערכים
FeaturesDict
כּוֹתֶרֶת טֶקסט חוּט תכונת טקסט חלופי של HTML
תְמוּנָה תְמוּנָה (אין, אין, 3) uint8 תְמוּנָה
רִשָׁיוֹן טֶקסט חוּט סוג רישיון Creative Commons (אם רלוונטי)
nsfw ClassLabel int64 תג NSFW (זוהה עם CLIP). תגים לא מגובשים וחסרים מוחלפים ב-UNTAGGED
גובה_מקורי סקלר int32 הגובה המקורי של התמונה
רוחב_מקורי סקלר int32 הרוחב המקורי של התמונה
דִמיוֹן סקלר לצוף64 ציון דמיון קוסינוס בין הטבעת הטקסט לתמונה. ערכים חסרים ברירת המחדל היא -1.0 [0.0, 1.0]
כתובת אתר טֶקסט חוּט כתובת האתר של התמונה

laion400m/הטבעות

  • מבנה תכונה :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מַחלָקָה צוּרָה Dtype תֵאוּר טווח ערכים
FeaturesDict
כּוֹתֶרֶת טֶקסט חוּט תכונת טקסט חלופי של HTML
תמונה_הטבעה מוֹתֵחַ (512,) לצוף16 הטבעת תמונת CLIP
רִשָׁיוֹן טֶקסט חוּט סוג רישיון Creative Commons (אם רלוונטי)
nsfw ClassLabel int64 תג NSFW (זוהה עם CLIP). תגים לא מגובשים וחסרים מוחלפים ב-UNTAGGED
גובה_מקורי סקלר int32 הגובה המקורי של התמונה
רוחב_מקורי סקלר int32 הרוחב המקורי של התמונה
דִמיוֹן סקלר לצוף64 ציון דמיון קוסינוס בין הטבעת הטקסט לתמונה. ערכים חסרים ברירת המחדל היא -1.0 [0.0, 1.0]
text_embedding מוֹתֵחַ (512,) לצוף16 הטמעת טקסט CLIP
כתובת אתר טֶקסט חוּט כתובת האתר של התמונה