- 설명 :
대략적인 최근접 검색을 위해 사전 훈련된 GloVe(Global Vector for Word Representation) 임베딩입니다. 이 데이터 세트는 두 가지 분할로 구성됩니다.
- '데이터베이스': 1,183,514개의 데이터 포인트로 구성되며 각 데이터 포인트에는 '임베딩'(100개의 부동 소수점), '인덱스'(int64), '이웃'(빈 목록) 기능이 있습니다.
- '테스트': 10,000개의 데이터 포인트로 구성되며 각각은 '임베딩'(100개의 부동 소수점), '인덱스'(int64), '이웃'(데이터베이스에서 가장 가까운 이웃의 '인덱스' 및 '거리' 목록)을 갖습니다. )
소스 코드 :
tfds.nearest_neighbors.glove_100_angular.Glove100Angular
버전 :
-
1.0.0
(기본값): 최초 릴리스입니다.
-
다운로드 크기 :
462.93 MiB
데이터세트 크기 :
567.90 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'database' | 1,183,514 |
'test' | 10,000 |
- 기능 구조 :
FeaturesDict({
'embedding': Tensor(shape=(100,), dtype=float32),
'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
'neighbors': Sequence({
'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
}),
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
삽입 | 텐서 | (100,) | float32 | |
색인 | 스칼라 | 정수64 | 분할 내의 인덱스입니다. | |
이웃 | 순서 | 테스트 분할에만 사용할 수 있는 계산된 이웃입니다. | ||
이웃/거리 | 스칼라 | float32 | 이웃 거리. | |
이웃/인덱스 | 스칼라 | 정수64 | 이웃 색인. |
감독되는 키 (
as_supervised
doc 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@inproceedings{pennington2014glove,
author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
title = {GloVe: Global Vectors for Word Representation},
year = {2014},
pages = {1532--1543},
url = {http://www.aclweb.org/anthology/D14-1162},
}