- Descriptif :
L'ensemble de données de classification des questions de la Text REtrieval Conference (TREC) contient 5 500 questions étiquetées dans l'ensemble de formation et 500 autres pour l'ensemble de test. Le jeu de données comporte 6 étiquettes, 47 étiquettes de niveau 2. La longueur moyenne de chaque phrase est de 10, la taille du vocabulaire de 8700. Les données sont collectées à partir de quatre sources : 4 500 questions en anglais publiées par USC (Hovy et al., 2001), environ 500 questions construites manuellement pour quelques rares classes, 894 TREC 8 et TREC 9 questions, et aussi 500 questions de TREC 10 qui sert de jeu de test.
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : https://cogcomp.seas.upenn.edu/Data/QA/QC/
Code source :
tfds.datasets.trec.Builder
Versions :
-
1.0.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
350.79 KiB
Taille du jeu de données :
636.90 KiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 500 |
'train' | 5 452 |
- Structure des fonctionnalités :
FeaturesDict({
'label-coarse': ClassLabel(shape=(), dtype=int64, num_classes=6),
'label-fine': ClassLabel(shape=(), dtype=int64, num_classes=47),
'text': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
étiquette grossière | Étiquette de classe | int64 | ||
étiquette fine | Étiquette de classe | int64 | ||
texte | Texte | chaîne |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@inproceedings{li-roth-2002-learning,
title = "Learning Question Classifiers",
author = "Li, Xin and
Roth, Dan",
booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
year = "2002",
url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
title = "Toward Semantics-Based Answer Pinpointing",
author = "Hovy, Eduard and
Gerber, Laurie and
Hermjakob, Ulf and
Lin, Chin-Yew and
Ravichandran, Deepak",
booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
year = "2001",
url = "https://www.aclweb.org/anthology/H01-1069",
}