glove100_angular

  • Описание :

Предварительно обученные встраивания глобальных векторов для представления слов (GloVe) для приблизительного поиска ближайшего соседа. Этот набор данных состоит из двух частей:

  1. «база данных»: состоит из 1 183 514 точек данных, каждая из которых имеет функции: «встраивание» (100 чисел с плавающей запятой), «индекс» (int64), «соседи» (пустой список).
  2. «тест»: состоит из 10 000 точек данных, каждая из которых имеет функции: «встраивание» (100 чисел с плавающей запятой), «индекс» (int64), «соседи» (список «индексов» и «расстояний» ближайших соседей в базе данных. )
Расколоть Примеры
'database' 1 183 514
'test' 10 000
  • Структура функции :
FeaturesDict({
    'embedding': Tensor(shape=(100,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
        'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
    }),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
встраивание Тензор (100,) поплавок32
индекс Скаляр int64 Индекс внутри разделения.
соседи Последовательность Вычисленные соседи, доступные только для тестового разделения.
соседи/расстояние Скаляр float32 Расстояние до соседа.
соседи/индекс Скаляр int64 Индекс соседства.
  • Цитата :
@inproceedings{pennington2014glove,
  author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
  booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
  title = {GloVe: Global Vectors for Word Representation},
  year = {2014},
  pages = {1532--1543},
  url = {http://www.aclweb.org/anthology/D14-1162},
}