ag_news_subset

  • คำอธิบาย :

AG คือการรวบรวมบทความข่าวมากกว่า 1 ล้านบทความ ComeToMyHead รวบรวมบทความข่าวจากแหล่งข่าวมากกว่า 2,000 แหล่งในกิจกรรมมากกว่า 1 ปี ComeToMyHead เป็นเครื่องมือค้นหาข่าวทางวิชาการซึ่งเริ่มทำงานตั้งแต่เดือนกรกฎาคม 2547 ชุดข้อมูลนี้จัดทำโดยชุมชนวิชาการเพื่อวัตถุประสงค์ในการวิจัยในการทำเหมืองข้อมูล (การจัดกลุ่ม การจำแนก ฯลฯ) การดึงข้อมูล (การจัดอันดับ การค้นหา ฯลฯ) xml การบีบอัดข้อมูล การสตรีมข้อมูล และกิจกรรมอื่นๆ ที่ไม่ใช่เชิงพาณิชย์ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ลิงก์ http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html

ชุดข้อมูลการจัดหมวดหมู่หัวข้อข่าวของ AG สร้างขึ้นโดย Xiang Zhang (xiang.zhang@nyu.edu) จากชุดข้อมูลด้านบน ใช้เป็นเกณฑ์มาตรฐานการจัดประเภทข้อความในบทความต่อไปนี้: Xiang Zhang, Junbo Zhao, Yann LeCun Convolutional Networks ระดับอักขระสำหรับการจำแนกประเภทข้อความ ความก้าวหน้าในระบบประมวลผลข้อมูลระบบประสาท 28 (NIPS 2015)

ชุดข้อมูลการจัดหมวดหมู่หัวข้อข่าวของ AG สร้างขึ้นโดยเลือก 4 คลาสที่ใหญ่ที่สุดจากคลังข้อมูลดั้งเดิม แต่ละชั้นเรียนมีตัวอย่างการฝึกอบรม 30,000 ตัวอย่างและตัวอย่างการทดสอบ 1,900 ตัวอย่าง จำนวนตัวอย่างการฝึกอบรมทั้งหมดคือ 120,000 และการทดสอบ 7,600

แยก ตัวอย่าง
'test' 7,600
'train' 120,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คำอธิบาย ข้อความ สตริง
ฉลาก ป้ายกำกับคลาส int64
ชื่อ ข้อความ สตริง
  • การอ้างอิง :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}