- Descriptif :
AG est une collection de plus d'un million d'articles de presse. Des articles de presse ont été rassemblés à partir de plus de 2000 sources d'information par ComeToMyHead en plus d'un an d'activité. ComeToMyHead est un moteur de recherche d'informations académiques qui fonctionne depuis juillet 2004. L'ensemble de données est fourni par la communauté académique à des fins de recherche dans le domaine de l'exploration de données (regroupement, classification, etc.), de la recherche d'informations (classement, recherche, etc.), xml, compression de données, diffusion de données et toute autre activité non commerciale. Pour plus d'informations, veuillez consulter le lien http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .
L'ensemble de données de classification des sujets d'actualités de l'AG est construit par Xiang Zhang (xiang.zhang@nyu.edu) à partir de l'ensemble de données ci-dessus. Il est utilisé comme référence de classification de texte dans l'article suivant : Xiang Zhang, Junbo Zhao, Yann LeCun. Réseaux convolutifs au niveau des caractères pour la classification de texte. Avancées dans les systèmes de traitement de l'information neuronale 28 (NIPS 2015).
L'ensemble de données de classification des sujets d'actualité de l'AG est construit en choisissant les 4 plus grandes classes du corpus d'origine. Chaque classe contient 30 000 échantillons d'apprentissage et 1 900 échantillons de test. Le nombre total d'échantillons d'apprentissage est de 120 000 et le test de 7 600.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://arxiv.org/abs/1509.01626
Code source :
tfds.datasets.ag_news_subset.Builder
Versions :
-
1.0.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
11.24 MiB
Taille du jeu de données :
35.79 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 7 600 |
'train' | 120 000 |
- Structure des fonctionnalités :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
la description | Texte | chaîne de caractères | ||
étiquette | Étiquette de classe | int64 | ||
Titre | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('description', 'label')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}