ag_news_subset

Descriptif :

AG est une collection de plus d'un million d'articles de presse. Des articles de presse ont été rassemblés à partir de plus de 2000 sources d'information par ComeToMyHead en plus d'un an d'activité. ComeToMyHead est un moteur de recherche d'informations académiques qui fonctionne depuis juillet 2004. L'ensemble de données est fourni par la communauté académique à des fins de recherche dans le domaine de l'exploration de données (regroupement, classification, etc.), de la recherche d'informations (classement, recherche, etc.), xml, compression de données, diffusion de données et toute autre activité non commerciale. Pour plus d'informations, veuillez consulter le lien http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

L'ensemble de données de classification des sujets d'actualités de l'AG est construit par Xiang Zhang (xiang.zhang@nyu.edu) à partir de l'ensemble de données ci-dessus. Il est utilisé comme référence de classification de texte dans l'article suivant : Xiang Zhang, Junbo Zhao, Yann LeCun. Réseaux convolutifs au niveau des caractères pour la classification de texte. Avancées dans les systèmes de traitement de l'information neuronale 28 (NIPS 2015).

L'ensemble de données de classification des sujets d'actualité de l'AG est construit en choisissant les 4 plus grandes classes du corpus d'origine. Chaque classe contient 30 000 échantillons d'apprentissage et 1 900 échantillons de test. Le nombre total d'échantillons d'apprentissage est de 120 000 et le test de 7 600.

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://arxiv.org/abs/1509.01626
Code source : tfds.datasets.ag_news_subset.Builder
Versions :
- 1.0.0 (par défaut) : aucune note de version.
Taille du téléchargement : 11.24 MiB
Taille du jeu de données : 35.79 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'test'`	7 600
`'train'`	120 000

Structure des fonctionnalités :

FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Dtype
	FonctionnalitésDict
la description	Texte	chaîne de caractères
étiquette	Étiquette de classe	int64
Titre	Texte	chaîne de caractères

Clés supervisées (Voir as_supervised doc ): ('description', 'label')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):

Citation :

@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

ag_news_subset Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

ag_news_subset