बड़ा पेटेंट

  • विवरण :

बिगपेटेंट, जिसमें मानव लिखित अमूर्त सारांशों के साथ अमेरिकी पेटेंट दस्तावेजों के 1.3 मिलियन रिकॉर्ड शामिल हैं। प्रत्येक अमेरिकी पेटेंट आवेदन एक सहकारी पेटेंट वर्गीकरण (सीपीसी) कोड के तहत दायर किया जाता है। ऐसी नौ वर्गीकरण श्रेणियां हैं:

  • ए (मानव आवश्यकताएँ),
  • बी (संचालन करना; परिवहन करना),
  • सी (रसायन विज्ञान; धातुकर्म),
  • डी (कपड़ा; कागज),
  • ई (फिक्स्ड कंस्ट्रक्शन),
  • एफ (मैकेनिकल इंजीनियरिंग; बिजली; हीटिंग; हथियार; ब्लास्टिंग),
  • जी (भौतिकी),
  • एच (बिजली), और
  • Y (नई या क्रॉस-सेक्शनल तकनीक की सामान्य टैगिंग)

इसमें दो विशेषताएं हैं:

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण
फीचर्सडिक्ट
अमूर्त मूलपाठ डोरी
विवरण मूलपाठ डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): ('description', 'abstract')

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/सभी (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िगरेशन विवरण : सभी श्रेणियों के अंतर्गत पेटेंट।

  • डेटासेट का आकार : 35.17 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 67,072
'train' 1,207,222
'validation' 67,068

big_patent/a

  • कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: मानव आवश्यकताएं

  • डेटासेट का आकार : 5.16 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 9,675
'train' 174,134
'validation' 9,674

बड़ा_पेटेंट/बी

  • कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी)बी के तहत पेटेंट: परिचालन संचालन; परिवहन

  • डेटासेट का आकार : 4.06 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 8,974
'train' 161,520
'validation' 8,973

बड़ा_पेटेंट/सी

  • कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: रसायन विज्ञान; धातुकर्म

  • डेटासेट का आकार : 3.63 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 5,614
'train' 101,042
'validation' 5,613

big_patent/d

  • कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: कपड़ा; कागज़

  • डेटासेट का आकार : 255.56 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 565
'train' 10,164
'validation' 565

big_patent/e

  • कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: निश्चित निर्माण

  • डेटासेट का आकार : 871.40 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,914
'train' 34,443
'validation' 1,914

big_patent/f

  • कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: मैकेनिकल इंजीनियरिंग; बिजली चमकना; गरम करना; हथियार, शस्त्र; नष्ट

  • डेटासेट का आकार : 2.06 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 4,754
'train' 85,568
'validation' 4,754

big_patent/g

  • कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: भौतिकी

  • डेटासेट का आकार : 8.19 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 14,386
'train' 258,935
'validation' 14,385

big_patent/h

  • कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: बिजली

  • डेटासेट का आकार : 7.50 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 14,279
'train' 257,019
'validation' 14,279

big_patent/y

  • कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: नई या क्रॉस-अनुभागीय प्रौद्योगिकी की सामान्य टैगिंग

  • डेटासेट का आकार : 3.46 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 6,911
'train' 124,397
'validation' 6,911