- คำอธิบาย :
ชุดข้อมูล LAION-400M เป็นแบบเปิดเผยและเข้าถึงได้อย่างอิสระโดยสมบูรณ์
ตรวจสอบ https://laion.ai/laion-400-open-dataset/ สำหรับคำอธิบายแบบเต็มของชุดข้อมูลนี้
รูปภาพและข้อความทั้งหมดในชุดข้อมูล LAION-400M ได้รับการกรองด้วย CLIP ของ OpenAI โดยการคำนวณความคล้ายคลึงโคไซน์ระหว่างข้อความและรูปภาพที่ฝัง และลดสิ่งที่มีความคล้ายคลึงกันต่ำกว่า 0.3 เกณฑ์ขั้นต่ำที่ 0.3 ถูกกำหนดโดยการประเมินโดยมนุษย์ และดูเหมือนว่าจะเป็นฮิวริสติกที่ดีในการประมาณการจับคู่เนื้อหารูปภาพ-ข้อความ-ความหมาย
คู่รูปภาพ-ข้อความได้รับการแยกออกจากดัมพ์ข้อมูลเว็บ Common Crawl และมาจากหน้าเว็บแบบสุ่มที่รวบรวมข้อมูลระหว่างปี 2014 ถึง 2021
เอกสารประกอบเพิ่มเติม : สำรวจในเอกสารด้วยรหัส
ซอร์สโค้ด :
tfds.vision_language.laion400m.Laion400m
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
Unknown size
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้ต้องการให้คุณดาวน์โหลดข้อมูลต้นฉบับด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):
อ้างถึงส่วน "ดาวน์โหลดข้อมูล" ใน https://laion.ai/blog/laion-400-open-dataset/แคชอัตโนมัติ ( เอกสาร ): ไม่ทราบ
แยก :
แยก | ตัวอย่าง |
---|
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ): หายไป
การอ้างอิง :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/ภาพ (การกำหนดค่าเริ่มต้น)
- โครงสร้างคุณสมบัติ :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | ประเภทD | คำอธิบาย | ช่วงค่า |
---|---|---|---|---|---|
คุณสมบัติDict | |||||
คำบรรยายภาพ | ข้อความ | เชือก | แอตทริบิวต์ข้อความแสดงแทน HTML | ||
ภาพ | ภาพ | (ไม่มี ไม่มี 3) | uint8 | ภาพ | |
ใบอนุญาต | ข้อความ | เชือก | ประเภทของสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี) | ||
ไม่ | ClassLabel | int64 | แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ต่อเนื่องและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED | ||
ต้นฉบับ_ความสูง | สเกลาร์ | int32 | ความสูงเดิมของภาพ | ||
ต้นฉบับ_ความกว้าง | สเกลาร์ | int32 | ความกว้างเดิมของภาพ | ||
ความคล้ายคลึงกัน | สเกลาร์ | ลอย64 | คะแนนความคล้ายคลึงโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าที่หายไปจะมีค่าเริ่มต้นเป็น -1.0 | [0.0, 1.0] | |
URL | ข้อความ | เชือก | URL รูปภาพ |
laion400m/การฝัง
- โครงสร้างคุณสมบัติ :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | ประเภทD | คำอธิบาย | ช่วงค่า |
---|---|---|---|---|---|
คุณสมบัติDict | |||||
คำบรรยายภาพ | ข้อความ | เชือก | แอตทริบิวต์ข้อความแสดงแทน HTML | ||
image_embedding | เทนเซอร์ | (512,) | ลอย16 | CLIP การฝังภาพ | |
ใบอนุญาต | ข้อความ | เชือก | ประเภทของสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี) | ||
ไม่ | ClassLabel | int64 | แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ต่อเนื่องและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED | ||
ต้นฉบับ_ความสูง | สเกลาร์ | int32 | ความสูงเดิมของภาพ | ||
ต้นฉบับ_ความกว้าง | สเกลาร์ | int32 | ความกว้างเดิมของภาพ | ||
ความคล้ายคลึงกัน | สเกลาร์ | ลอย64 | คะแนนความคล้ายคลึงโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าที่หายไปจะมีค่าเริ่มต้นเป็น -1.0 | [0.0, 1.0] | |
text_embedding | เทนเซอร์ | (512,) | ลอย16 | การฝังข้อความ CLIP | |
URL | ข้อความ | เชือก | URL รูปภาพ |