ร่อน1m

  • คำอธิบาย :

การฝังที่ได้รับการฝึกอบรมล่วงหน้าสำหรับการค้นหาเพื่อนบ้านที่ใกล้ที่สุดโดยประมาณโดยใช้ระยะทางแบบยุคลิด ชุดข้อมูลนี้ประกอบด้วยสองส่วน:

  1. 'ฐานข้อมูล': ประกอบด้วยจุดข้อมูล 1,000,000 จุด แต่ละจุดมีคุณสมบัติ: 'การฝัง' (128 โฟลต), 'ดัชนี' (int64), 'เพื่อนบ้าน' (รายการว่าง)
  2. 'ทดสอบ': ประกอบด้วยจุดข้อมูล 10,000 จุด แต่ละจุดมีคุณสมบัติ: 'การฝัง' (128 โฟลต), 'ดัชนี' (int64), 'เพื่อนบ้าน' (รายการ 'ดัชนี' และ 'ระยะทาง' ของเพื่อนบ้านที่ใกล้ที่สุดในฐานข้อมูล )
  • หน้าแรก : http://corpus-texmex.irisa.fr/

  • ซอร์สโค้ด : tfds.datasets.sift1m.Builder

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดดาวน์โหลด : 500.80 MiB

  • ขนาดชุดข้อมูล : 589.49 MiB

  • แคชอัตโนมัติ ( เอกสาร ): No

  • แยก :

แยก ตัวอย่าง
'database' 1,000,000
'test' 10,000
  • โครงสร้างคุณสมบัติ :
FeaturesDict({
    'embedding': Tensor(shape=(128,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
        'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
    }),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย
คุณสมบัติDict
การฝัง เทนเซอร์ (128,) ลอย32
ดัชนี สเกลาร์ int64 ดัชนีภายในการแยก
เพื่อนบ้าน ลำดับ เพื่อนบ้านที่คำนวณแล้ว ซึ่งมีให้สำหรับการแยกการทดสอบเท่านั้น
เพื่อนบ้าน/ระยะทาง สเกลาร์ ลอย32 ระยะห่างเพื่อนบ้าน.
เพื่อนบ้าน/ดัชนี สเกลาร์ int64 ดัชนีเพื่อนบ้าน
  • การอ้างอิง :
@article{jegou2010product,
  title={Product quantization for nearest neighbor search},
  author={Jegou, Herve and Douze, Matthijs and Schmid, Cordelia},
  journal={IEEE transactions on pattern analysis and machine intelligence},
  volume={33},
  number={1},
  pages={117--128},
  year={2010},
  publisher={IEEE}
}