ag_news_subconjunto

  • Descripción :

AG es una colección de más de 1 millón de artículos de noticias. ComeToMyHead ha recopilado artículos de noticias de más de 2000 fuentes de noticias en más de 1 año de actividad. ComeToMyHead es un motor de búsqueda de noticias académicas que funciona desde julio de 2004. La comunidad académica proporciona el conjunto de datos con fines de investigación en minería de datos (agrupación, clasificación, etc.), recuperación de información (clasificación, búsqueda, etc.), xml, compresión de datos, transmisión de datos y cualquier otra actividad no comercial. Para obtener más información, consulte el enlace http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

Xiang Zhang (xiang.zhang@nyu.edu) construye el conjunto de datos de clasificación de temas de noticias de AG a partir del conjunto de datos anterior. Se utiliza como punto de referencia de clasificación de texto en el siguiente artículo: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionales a nivel de caracteres para clasificación de texto. Avances en sistemas de procesamiento de información neuronal 28 (NIPS 2015).

El conjunto de datos de clasificación de temas de noticias de AG se construye eligiendo las 4 clases más grandes del corpus original. Cada clase contiene 30.000 muestras de entrenamiento y 1.900 muestras de prueba. El número total de muestras de entrenamiento es de 120.000 y de pruebas de 7.600.

Separar Ejemplos
'test' 7,600
'train' 120,000
  • Estructura de características :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
descripción Texto cuerda
etiqueta Etiqueta de clase int64
título Texto cuerda
  • Cita :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}