ag_news_subset

  • विवरण :

एजी 10 लाख से अधिक समाचार लेखों का संग्रह है। 1 वर्ष से अधिक की गतिविधि में ComeToMyHead द्वारा 2000 से अधिक समाचार स्रोतों से समाचार लेख एकत्र किए गए हैं। ComeToMyHead एक शैक्षणिक समाचार खोज इंजन है जो जुलाई, 2004 से चल रहा है। डेटा खनन (क्लस्टरिंग, वर्गीकरण, आदि), सूचना पुनर्प्राप्ति (रैंकिंग, खोज, आदि), xml, में अनुसंधान उद्देश्यों के लिए डेटासेट अकादमिक समुदाय द्वारा प्रदान किया जाता है। डेटा संपीड़न, डेटा स्ट्रीमिंग, और कोई अन्य गैर-व्यावसायिक गतिविधि। अधिक जानकारी के लिए, कृपया लिंक http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html देखें

एजी के समाचार विषय वर्गीकरण डेटासेट का निर्माण ऊपर दिए गए डेटासेट से जियांग झांग (xiang.zhang@nyu.edu) द्वारा किया गया है। इसका उपयोग निम्नलिखित पेपर में टेक्स्ट वर्गीकरण बेंचमार्क के रूप में किया जाता है: जियांग झांग, जुनबो झाओ, यान लेकन। टेक्स्ट क्लासिफिकेशन के लिए कैरेक्टर-लेवल कनवॉल्यूशनल नेटवर्क। तंत्रिका सूचना प्रसंस्करण प्रणालियों में अग्रिम 28 (एनआईपीएस 2015)।

AG का समाचार विषय वर्गीकरण डेटासेट मूल कोष से 4 सबसे बड़े वर्गों को चुनकर बनाया गया है। प्रत्येक वर्ग में 30,000 प्रशिक्षण नमूने और 1,900 परीक्षण नमूने शामिल हैं। प्रशिक्षण नमूनों की कुल संख्या 120,000 और परीक्षण 7,600 है।

विभाजित करना उदाहरण
'test' 7,600
'train' 120,000
  • फ़ीचर संरचना :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
विवरण मूलपाठ डोरी
लेबल क्लासलेबल int64
शीर्षक मूलपाठ डोरी
  • उद्धरण :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}