- Descripción :
Incorporaciones de vectores globales preentrenados para representación de palabras (GloVe) para una búsqueda aproximada del vecino más cercano. Este conjunto de datos consta de dos divisiones:
- 'base de datos': consta de 1.183.514 puntos de datos, cada uno tiene características: 'incrustación' (100 flotantes), 'índice' (int64), 'vecinos' (lista vacía).
- 'prueba': consta de 10,000 puntos de datos, cada uno tiene características: 'incrustación' (100 flotantes), 'índice' (int64), 'vecinos' (lista de 'índice' y 'distancia' de los vecinos más cercanos en la base de datos. )
Página de inicio : https://nlp.stanford.edu/projects/glove/
Código fuente :
tfds.nearest_neighbors.glove_100_angular.Glove100Angular
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de descarga :
462.93 MiB
Tamaño del conjunto de datos :
567.90 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'database' | 1.183.514 |
'test' | 10.000 |
- Estructura de características :
FeaturesDict({
'embedding': Tensor(shape=(100,), dtype=float32),
'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
'neighbors': Sequence({
'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
}),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
incrustar | Tensor | (100,) | flotador32 | |
índice | Escalar | int64 | Índice dentro de la división. | |
vecinos | Secuencia | Los vecinos calculados, que solo están disponibles para la división de prueba. | ||
vecinos/distancia | Escalar | flotador32 | Distancia del vecino. | |
vecinos/índice | Escalar | int64 | Índice de vecinos. |
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{pennington2014glove,
author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
title = {GloVe: Global Vectors for Word Representation},
year = {2014},
pages = {1532--1543},
url = {http://www.aclweb.org/anthology/D14-1162},
}