ไลออน400ม

  • คำอธิบาย :

ชุดข้อมูล LAION-400M เป็นแบบเปิดเผยและเข้าถึงได้อย่างอิสระโดยสมบูรณ์

ตรวจสอบ https://laion.ai/laion-400-open-dataset/ สำหรับคำอธิบายแบบเต็มของชุดข้อมูลนี้

รูปภาพและข้อความทั้งหมดในชุดข้อมูล LAION-400M ได้รับการกรองด้วย CLIP ของ OpenAI โดยการคำนวณความคล้ายคลึงโคไซน์ระหว่างข้อความและรูปภาพที่ฝัง และลดสิ่งที่มีความคล้ายคลึงกันต่ำกว่า 0.3 เกณฑ์ขั้นต่ำที่ 0.3 ถูกกำหนดโดยการประเมินโดยมนุษย์ และดูเหมือนว่าจะเป็นฮิวริสติกที่ดีในการประมาณการจับคู่เนื้อหารูปภาพ-ข้อความ-ความหมาย

คู่รูปภาพ-ข้อความได้รับการแยกออกจากดัมพ์ข้อมูลเว็บ Common Crawl และมาจากหน้าเว็บแบบสุ่มที่รวบรวมข้อมูลระหว่างปี 2014 ถึง 2021

  • เอกสารประกอบเพิ่มเติม : สำรวจในเอกสารด้วยรหัส

  • หน้าแรก : https://laion.ai/blog/laion-400-open-dataset/

  • ซอร์สโค้ด : tfds.vision_language.laion400m.Laion400m

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : Unknown size

  • ขนาดชุดข้อมูล : Unknown size

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้ต้องการให้คุณดาวน์โหลดข้อมูลต้นฉบับด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    อ้างถึงส่วน "ดาวน์โหลดข้อมูล" ใน https://laion.ai/blog/laion-400-open-dataset/

  • แคชอัตโนมัติ ( เอกสาร ): ไม่ทราบ

  • แยก :

แยก ตัวอย่าง
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/ภาพ (การกำหนดค่าเริ่มต้น)

  • โครงสร้างคุณสมบัติ :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย ช่วงค่า
คุณสมบัติDict
คำบรรยายภาพ ข้อความ เชือก แอตทริบิวต์ข้อความแสดงแทน HTML
ภาพ ภาพ (ไม่มี ไม่มี 3) uint8 ภาพ
ใบอนุญาต ข้อความ เชือก ประเภทของสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี)
ไม่ ClassLabel int64 แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ต่อเนื่องและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED
ต้นฉบับ_ความสูง สเกลาร์ int32 ความสูงเดิมของภาพ
ต้นฉบับ_ความกว้าง สเกลาร์ int32 ความกว้างเดิมของภาพ
ความคล้ายคลึงกัน สเกลาร์ ลอย64 คะแนนความคล้ายคลึงโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าที่หายไปจะมีค่าเริ่มต้นเป็น -1.0 [0.0, 1.0]
URL ข้อความ เชือก URL รูปภาพ

laion400m/การฝัง

  • โครงสร้างคุณสมบัติ :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย ช่วงค่า
คุณสมบัติDict
คำบรรยายภาพ ข้อความ เชือก แอตทริบิวต์ข้อความแสดงแทน HTML
image_embedding เทนเซอร์ (512,) ลอย16 CLIP การฝังภาพ
ใบอนุญาต ข้อความ เชือก ประเภทของสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี)
ไม่ ClassLabel int64 แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ต่อเนื่องและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED
ต้นฉบับ_ความสูง สเกลาร์ int32 ความสูงเดิมของภาพ
ต้นฉบับ_ความกว้าง สเกลาร์ int32 ความกว้างเดิมของภาพ
ความคล้ายคลึงกัน สเกลาร์ ลอย64 คะแนนความคล้ายคลึงโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าที่หายไปจะมีค่าเริ่มต้นเป็น -1.0 [0.0, 1.0]
text_embedding เทนเซอร์ (512,) ลอย16 การฝังข้อความ CLIP
URL ข้อความ เชือก URL รูปภาพ