- विवरण :
बिगपेटेंट, जिसमें मानव लिखित अमूर्त सारांशों के साथ अमेरिकी पेटेंट दस्तावेजों के 1.3 मिलियन रिकॉर्ड शामिल हैं। प्रत्येक अमेरिकी पेटेंट आवेदन एक सहकारी पेटेंट वर्गीकरण (सीपीसी) कोड के तहत दायर किया जाता है। ऐसी नौ वर्गीकरण श्रेणियां हैं:
- ए (मानव आवश्यकताएँ),
- बी (संचालन करना; परिवहन करना),
- सी (रसायन विज्ञान; धातुकर्म),
- डी (कपड़ा; कागज),
- ई (फिक्स्ड कंस्ट्रक्शन),
- एफ (मैकेनिकल इंजीनियरिंग; बिजली; हीटिंग; हथियार; ब्लास्टिंग),
- जी (भौतिकी),
- एच (बिजली), और
- Y (नई या क्रॉस-सेक्शनल तकनीक की सामान्य टैगिंग)
इसमें दो विशेषताएं हैं:
- विवरण: पेटेंट का विस्तृत विवरण।
सारांश: पेटेंट सार।
मुखपृष्ठ : https://evasharma.github.io/bigpatent/
स्रोत कोड :
tfds.datasets.big_patent.Builder
संस्करण :
-
1.0.0
: छोटे अक्षर वाले सांकेतिक शब्द -
2.0.0
: केस्ड रॉ स्ट्रिंग्स का उपयोग करने के लिए अद्यतन करें -
2.1.2
(डिफ़ॉल्ट): केस्ड रॉ स्ट्रिंग्स के अपडेट को ठीक करें।
-
डाउनलोड आकार :
9.45 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
फ़ीचर संरचना :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
अमूर्त | मूलपाठ | डोरी | ||
विवरण | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):('description', 'abstract')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/सभी (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िगरेशन विवरण : सभी श्रेणियों के अंतर्गत पेटेंट।
डेटासेट का आकार :
35.17 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 67,072 |
'train' | 1,207,222 |
'validation' | 67,068 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/a
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: मानव आवश्यकताएं
डेटासेट का आकार :
5.16 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 9,675 |
'train' | 174,134 |
'validation' | 9,674 |
- उदाहरण ( tfds.as_dataframe ):
बड़ा_पेटेंट/बी
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी)बी के तहत पेटेंट: परिचालन संचालन; परिवहन
डेटासेट का आकार :
4.06 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 8,974 |
'train' | 161,520 |
'validation' | 8,973 |
- उदाहरण ( tfds.as_dataframe ):
बड़ा_पेटेंट/सी
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: रसायन विज्ञान; धातुकर्म
डेटासेट का आकार :
3.63 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 5,614 |
'train' | 101,042 |
'validation' | 5,613 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/d
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: कपड़ा; कागज़
डेटासेट का आकार :
255.56 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 565 |
'train' | 10,164 |
'validation' | 565 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/e
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: निश्चित निर्माण
डेटासेट का आकार :
871.40 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,914 |
'train' | 34,443 |
'validation' | 1,914 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/f
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: मैकेनिकल इंजीनियरिंग; बिजली चमकना; गरम करना; हथियार, शस्त्र; नष्ट
डेटासेट का आकार :
2.06 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 4,754 |
'train' | 85,568 |
'validation' | 4,754 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/g
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: भौतिकी
डेटासेट का आकार :
8.19 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 14,386 |
'train' | 258,935 |
'validation' | 14,385 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/h
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: बिजली
डेटासेट का आकार :
7.50 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 14,279 |
'train' | 257,019 |
'validation' | 14,279 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/y
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: नई या क्रॉस-अनुभागीय प्रौद्योगिकी की सामान्य टैगिंग
डेटासेट का आकार :
3.46 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 6,911 |
'train' | 124,397 |
'validation' | 6,911 |
- उदाहरण ( tfds.as_dataframe ):