sàng lọc1m

  • Sự miêu tả :

Các phần nhúng được đào tạo trước để tìm kiếm hàng xóm gần nhất bằng cách sử dụng khoảng cách Euclide. Tập dữ liệu này bao gồm hai phần:

  1. 'cơ sở dữ liệu': bao gồm 1.000.000 điểm dữ liệu, mỗi điểm có các tính năng: 'nhúng' (128 float), 'index' (int64), 'neighbors' (danh sách trống).
  2. “test”: bao gồm 10.000 điểm dữ liệu, mỗi điểm có các tính năng: “nhúng” (128 float), “index” (int64), “neighbors” (danh sách “chỉ mục” và “khoảng cách” của các láng giềng gần nhất trong cơ sở dữ liệu. )
Tách ra Ví dụ
'database' 1.000.000
'test' 10.000
  • Cấu trúc tính năng :
FeaturesDict({
    'embedding': Tensor(shape=(128,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
        'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
nhúng Tenxơ (128,) phao32
chỉ số vô hướng int64 Lập chỉ mục trong phần phân chia.
hàng xóm Sự liên tiếp Các lân cận được tính toán, chỉ có sẵn cho phần tách thử nghiệm.
hàng xóm/khoảng cách vô hướng phao32 Khoảng cách hàng xóm.
hàng xóm/chỉ mục vô hướng int64 Chỉ số hàng xóm.
  • Trích dẫn :
@article{jegou2010product,
  title={Product quantization for nearest neighbor search},
  author={Jegou, Herve and Douze, Matthijs and Schmid, Cordelia},
  journal={IEEE transactions on pattern analysis and machine intelligence},
  volume={33},
  number={1},
  pages={117--128},
  year={2010},
  publisher={IEEE}
}