ag_news_subset

  • Descriptif :

AG est une collection de plus d'un million d'articles de presse. Des articles de presse ont été rassemblés à partir de plus de 2000 sources d'information par ComeToMyHead en plus d'un an d'activité. ComeToMyHead est un moteur de recherche d'informations académiques qui fonctionne depuis juillet 2004. L'ensemble de données est fourni par la communauté académique à des fins de recherche dans le domaine de l'exploration de données (regroupement, classification, etc.), de la recherche d'informations (classement, recherche, etc.), xml, compression de données, diffusion de données et toute autre activité non commerciale. Pour plus d'informations, veuillez consulter le lien http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

L'ensemble de données de classification des sujets d'actualités de l'AG est construit par Xiang Zhang (xiang.zhang@nyu.edu) à partir de l'ensemble de données ci-dessus. Il est utilisé comme référence de classification de texte dans l'article suivant : Xiang Zhang, Junbo Zhao, Yann LeCun. Réseaux convolutifs au niveau des caractères pour la classification de texte. Avancées dans les systèmes de traitement de l'information neuronale 28 (NIPS 2015).

L'ensemble de données de classification des sujets d'actualité de l'AG est construit en choisissant les 4 plus grandes classes du corpus d'origine. Chaque classe contient 30 000 échantillons d'apprentissage et 1 900 échantillons de test. Le nombre total d'échantillons d'apprentissage est de 120 000 et le test de 7 600.

Diviser Exemples
'test' 7 600
'train' 120 000
  • Structure des fonctionnalités :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
la description Texte chaîne de caractères
étiquette Étiquette de classe int64
Titre Texte chaîne de caractères
  • Citation :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}