- คำอธิบาย :
AG คือการรวบรวมบทความข่าวมากกว่า 1 ล้านบทความ ComeToMyHead รวบรวมบทความข่าวจากแหล่งข่าวมากกว่า 2,000 แหล่งในกิจกรรมมากกว่า 1 ปี ComeToMyHead เป็นเครื่องมือค้นหาข่าวทางวิชาการซึ่งเริ่มทำงานตั้งแต่เดือนกรกฎาคม 2547 ชุดข้อมูลนี้จัดทำโดยชุมชนวิชาการเพื่อวัตถุประสงค์ในการวิจัยในการทำเหมืองข้อมูล (การจัดกลุ่ม การจำแนก ฯลฯ) การดึงข้อมูล (การจัดอันดับ การค้นหา ฯลฯ) xml การบีบอัดข้อมูล การสตรีมข้อมูล และกิจกรรมอื่นๆ ที่ไม่ใช่เชิงพาณิชย์ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ลิงก์ http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html
ชุดข้อมูลการจัดหมวดหมู่หัวข้อข่าวของ AG สร้างขึ้นโดย Xiang Zhang (xiang.zhang@nyu.edu) จากชุดข้อมูลด้านบน ใช้เป็นเกณฑ์มาตรฐานการจัดประเภทข้อความในบทความต่อไปนี้: Xiang Zhang, Junbo Zhao, Yann LeCun Convolutional Networks ระดับอักขระสำหรับการจำแนกประเภทข้อความ ความก้าวหน้าในระบบประมวลผลข้อมูลระบบประสาท 28 (NIPS 2015)
ชุดข้อมูลการจัดหมวดหมู่หัวข้อข่าวของ AG สร้างขึ้นโดยเลือก 4 คลาสที่ใหญ่ที่สุดจากคลังข้อมูลดั้งเดิม แต่ละชั้นเรียนมีตัวอย่างการฝึกอบรม 30,000 ตัวอย่างและตัวอย่างการทดสอบ 1,900 ตัวอย่าง จำนวนตัวอย่างการฝึกอบรมทั้งหมดคือ 120,000 และการทดสอบ 7,600
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
โฮมเพจ : https://arxiv.org/abs/1509.01626
รหัสที่มา :
tfds.datasets.ag_news_subset.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด :
11.24 MiB
ขนาดชุดข้อมูล :
35.79 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 7,600 |
'train' | 120,000 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
คำอธิบาย | ข้อความ | สตริง | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
ชื่อ | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('description', 'label')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}