glove100_angular

  • وصف :

المتجهات العالمية المدربة مسبقًا لتضمينات تمثيل الكلمات (GloVe) للبحث التقريبي عن أقرب جار. تتكون مجموعة البيانات هذه من قسمين:

  1. "قاعدة البيانات": تتكون من 1,183,514 نقطة بيانات، لكل منها ميزات: "التضمين" (100 عدد عشري)، و"الفهرس" (int64)، و"الجيران" (قائمة فارغة).
  2. "الاختبار": يتكون من 10000 نقطة بيانات، لكل منها ميزات: "التضمين" (100 عائمة)، و"الفهرس" (int64)، و"الجيران" (قائمة "الفهرس" و"المسافة" لأقرب الجيران في قاعدة البيانات. )
ينقسم أمثلة
'database' 1,183,514
'test' 10.000
  • هيكل الميزة :
FeaturesDict({
    'embedding': Tensor(shape=(100,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
        'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
التضمين الموتر (100،) float32
فِهرِس العددية int64 الفهرس داخل الانقسام.
الجيران تسلسل الجيران المحسوبون، وهو متاح فقط لتقسيم الاختبار.
الجيران / المسافة العددية float32 مسافة الجيران.
الجيران/فهرس العددية int64 مؤشر الجيران.
  • الاقتباس :
@inproceedings{pennington2014glove,
  author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
  booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
  title = {GloVe: Global Vectors for Word Representation},
  year = {2014},
  pages = {1532--1543},
  url = {http://www.aclweb.org/anthology/D14-1162},
}