- विवरण :
एजी 10 लाख से अधिक समाचार लेखों का संग्रह है। 1 वर्ष से अधिक की गतिविधि में ComeToMyHead द्वारा 2000 से अधिक समाचार स्रोतों से समाचार लेख एकत्र किए गए हैं। ComeToMyHead एक शैक्षणिक समाचार खोज इंजन है जो जुलाई, 2004 से चल रहा है। डेटा खनन (क्लस्टरिंग, वर्गीकरण, आदि), सूचना पुनर्प्राप्ति (रैंकिंग, खोज, आदि), xml, में अनुसंधान उद्देश्यों के लिए डेटासेट अकादमिक समुदाय द्वारा प्रदान किया जाता है। डेटा संपीड़न, डेटा स्ट्रीमिंग, और कोई अन्य गैर-व्यावसायिक गतिविधि। अधिक जानकारी के लिए, कृपया लिंक http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html देखें ।
एजी के समाचार विषय वर्गीकरण डेटासेट का निर्माण ऊपर दिए गए डेटासेट से जियांग झांग (xiang.zhang@nyu.edu) द्वारा किया गया है। इसका उपयोग निम्नलिखित पेपर में टेक्स्ट वर्गीकरण बेंचमार्क के रूप में किया जाता है: जियांग झांग, जुनबो झाओ, यान लेकन। टेक्स्ट क्लासिफिकेशन के लिए कैरेक्टर-लेवल कनवॉल्यूशनल नेटवर्क। तंत्रिका सूचना प्रसंस्करण प्रणालियों में अग्रिम 28 (एनआईपीएस 2015)।
AG का समाचार विषय वर्गीकरण डेटासेट मूल कोष से 4 सबसे बड़े वर्गों को चुनकर बनाया गया है। प्रत्येक वर्ग में 30,000 प्रशिक्षण नमूने और 1,900 परीक्षण नमूने शामिल हैं। प्रशिक्षण नमूनों की कुल संख्या 120,000 और परीक्षण 7,600 है।
होमपेज : https://arxiv.org/abs/1509.01626
स्रोत कोड :
tfds.datasets.ag_news_subset.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
11.24 MiB
डेटासेट का आकार :
35.79 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 7,600 |
'train' | 120,000 |
- फ़ीचर संरचना :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
विवरण | मूलपाठ | डोरी | ||
लेबल | क्लासलेबल | int64 | ||
शीर्षक | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('description', 'label')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}