장갑100_각도

  • 설명 :

대략적인 최근접 검색을 위해 사전 훈련된 GloVe(Global Vector for Word Representation) 임베딩입니다. 이 데이터 세트는 두 가지 분할로 구성됩니다.

  1. '데이터베이스': 1,183,514개의 데이터 포인트로 구성되며 각 데이터 포인트에는 '임베딩'(100개의 부동 소수점), '인덱스'(int64), '이웃'(빈 목록) 기능이 있습니다.
  2. '테스트': 10,000개의 데이터 포인트로 구성되며 각각은 '임베딩'(100개의 부동 소수점), '인덱스'(int64), '이웃'(데이터베이스에서 가장 가까운 이웃의 '인덱스' 및 '거리' 목록)을 갖습니다. )
나뉘다
'database' 1,183,514
'test' 10,000
  • 기능 구조 :
FeaturesDict({
    'embedding': Tensor(shape=(100,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
        'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
    }),
})
  • 기능 문서 :
특징 수업 모양 Dtype 설명
특징Dict
삽입 텐서 (100,) float32
색인 스칼라 정수64 분할 내의 인덱스입니다.
이웃 순서 테스트 분할에만 사용할 수 있는 계산된 이웃입니다.
이웃/거리 스칼라 float32 이웃 거리.
이웃/인덱스 스칼라 정수64 이웃 색인.
  • 인용 :
@inproceedings{pennington2014glove,
  author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
  booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
  title = {GloVe: Global Vectors for Word Representation},
  year = {2014},
  pages = {1532--1543},
  url = {http://www.aclweb.org/anthology/D14-1162},
}