- الوصف :
BIGPATENT ، ويتألف من 1.3 مليون سجل لوثائق براءات الاختراع الأمريكية جنبًا إلى جنب مع ملخصات تجريدية مكتوبة بشريًا. يتم إيداع كل طلب براءة اختراع أمريكي بموجب رمز تصنيف براءات الاختراع التعاوني (CPC). هناك تسع فئات تصنيف:
- أ (الضرورات البشرية) ،
- ب (تنفيذ العمليات ؛ النقل) ،
- ج (الكيمياء ، علم المعادن) ،
- د (المنسوجات ، الورق) ،
- هـ (الإنشاءات الثابتة) ،
- F (الهندسة الميكانيكية ، البرق ، التدفئة ، الأسلحة ، التفجير) ،
- G (الفيزياء) ،
- ح (الكهرباء) ، و
- Y (وضع علامات عامة على التكنولوجيا الجديدة أو المستعرضة)
هناك نوعان من الميزات:
- الوصف: وصف تفصيلي لبراءات الاختراع.
الملخص: ملخص براءات الاختراع.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://evasharma.github.io/bigpatent/
كود المصدر :
tfds.datasets.big_patent.Builder
إصدارات :
-
1.0.0
: كلمات رمزية ذات غلاف منخفض -
2.0.0
: تحديث لاستخدام سلاسل خام مغلفة -
2.1.2
(افتراضي): إصلاح التحديث للسلاسل الأولية المغطاة.
-
حجم التحميل :
9.45 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
هيكل الميزة :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
خلاصة | نص | خيط | ||
وصف | نص | خيط |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('description', 'abstract')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent / الكل (التكوين الافتراضي)
وصف التكوين : براءات الاختراع في جميع الفئات.
حجم مجموعة البيانات :
35.17 GiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 67.072 |
'train' | 1،207،222 |
'validation' | 67.068 |
- أمثلة ( tfds.as_dataframe ):
big_patent / أ
وصف التكوين : براءات الاختراع في إطار التصنيف التعاوني للبراءات (CPC) أ: الضرورات البشرية
حجم مجموعة البيانات :
5.16 GiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 9،675 |
'train' | 174134 |
'validation' | 9674 |
- أمثلة ( tfds.as_dataframe ):
big_patent / ب
وصف التكوين : براءات الاختراع في إطار التصنيف التعاوني للبراءات (CPC) ب: تنفيذ العمليات ؛ النقل
حجم مجموعة البيانات :
4.06 GiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 8974 |
'train' | 161.520 |
'validation' | 8973 |
- أمثلة ( tfds.as_dataframe ):
big_patent / ج
وصف التكوين : براءات الاختراع في إطار التصنيف التعاوني للبراءات (CPC) ج: الكيمياء ؛ علم المعادن
حجم مجموعة البيانات :
3.63 GiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 5614 |
'train' | 101.042 |
'validation' | 5613 |
- أمثلة ( tfds.as_dataframe ):
براءة الاختراع الكبيرة / د
وصف التكوين : براءات الاختراع في إطار التصنيف التعاوني للبراءات (CPC) د: المنسوجات ؛ ورق
حجم مجموعة البيانات :
255.56 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 565 |
'train' | 10164 |
'validation' | 565 |
- أمثلة ( tfds.as_dataframe ):
big_patent / ه
وصف التكوين : براءات الاختراع في إطار التصنيف التعاوني للبراءات (CPC) هـ: الإنشاءات الثابتة
حجم مجموعة البيانات :
871.40 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 1،914 |
'train' | 34443 |
'validation' | 1،914 |
- أمثلة ( tfds.as_dataframe ):
big_patent / f
وصف التكوين : براءات الاختراع في إطار التصنيف التعاوني للبراءات (CPC) و: الهندسة الميكانيكية ؛ برق؛ تدفئة؛ أسلحة نسف
حجم مجموعة البيانات :
2.06 GiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 4،754 |
'train' | 85568 |
'validation' | 4،754 |
- أمثلة ( tfds.as_dataframe ):
big_patent / ز
وصف التكوين : براءات الاختراع في إطار التصنيف التعاوني للبراءات (CPC) ز: الفيزياء
حجم مجموعة البيانات :
8.19 GiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 14386 |
'train' | 258935 |
'validation' | 14385 |
- أمثلة ( tfds.as_dataframe ):
big_patent / ح
وصف التكوين : براءات الاختراع في إطار التصنيف التعاوني للبراءات (CPC) ح: الكهرباء
حجم مجموعة البيانات :
7.50 GiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 14279 |
'train' | 257019 |
'validation' | 14279 |
- أمثلة ( tfds.as_dataframe ):
big_patent / y
وصف التكوين : براءات الاختراع في إطار التصنيف التعاوني للبراءات (CPC) y: وضع علامات عامة على التكنولوجيا الجديدة أو المستعرضة
حجم مجموعة البيانات :
3.46 GiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 6911 |
'train' | 124397 |
'validation' | 6911 |
- أمثلة ( tfds.as_dataframe ):