- คำอธิบาย :
การฝังที่ได้รับการฝึกอบรมล่วงหน้าสำหรับการค้นหาเพื่อนบ้านที่ใกล้ที่สุดโดยประมาณโดยใช้ระยะทางแบบยุคลิด ชุดข้อมูลนี้ประกอบด้วยสองส่วน:
- 'ฐานข้อมูล': ประกอบด้วยจุดข้อมูล 1,000,000 จุด แต่ละจุดมีคุณสมบัติ: 'การฝัง' (128 โฟลต), 'ดัชนี' (int64), 'เพื่อนบ้าน' (รายการว่าง)
- 'ทดสอบ': ประกอบด้วยจุดข้อมูล 10,000 จุด แต่ละจุดมีคุณสมบัติ: 'การฝัง' (128 โฟลต), 'ดัชนี' (int64), 'เพื่อนบ้าน' (รายการ 'ดัชนี' และ 'ระยะทาง' ของเพื่อนบ้านที่ใกล้ที่สุดในฐานข้อมูล )
หน้าแรก : http://corpus-texmex.irisa.fr/
ซอร์สโค้ด :
tfds.datasets.sift1m.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดดาวน์โหลด :
500.80 MiB
ขนาดชุดข้อมูล :
589.49 MiB
แคชอัตโนมัติ ( เอกสาร ): No
แยก :
แยก | ตัวอย่าง |
---|---|
'database' | 1,000,000 |
'test' | 10,000 |
- โครงสร้างคุณสมบัติ :
FeaturesDict({
'embedding': Tensor(shape=(128,), dtype=float32),
'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
'neighbors': Sequence({
'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
}),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | ประเภทD | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
การฝัง | เทนเซอร์ | (128,) | ลอย32 | |
ดัชนี | สเกลาร์ | int64 | ดัชนีภายในการแยก | |
เพื่อนบ้าน | ลำดับ | เพื่อนบ้านที่คำนวณแล้ว ซึ่งมีให้สำหรับการแยกการทดสอบเท่านั้น | ||
เพื่อนบ้าน/ระยะทาง | สเกลาร์ | ลอย32 | ระยะห่างเพื่อนบ้าน. | |
เพื่อนบ้าน/ดัชนี | สเกลาร์ | int64 | ดัชนีเพื่อนบ้าน |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{jegou2010product,
title={Product quantization for nearest neighbor search},
author={Jegou, Herve and Douze, Matthijs and Schmid, Cordelia},
journal={IEEE transactions on pattern analysis and machine intelligence},
volume={33},
number={1},
pages={117--128},
year={2010},
publisher={IEEE}
}