- Descriptif :
La tâche partagée de CoNLL-2002 concerne la reconnaissance d'entités nommées indépendantes de la langue. Les types d'entités nommées comprennent : les personnes, les lieux, les organisations et les noms d'entités diverses qui n'appartiennent pas aux trois groupes précédents. Les participants à la tâche partagée ont reçu une formation et des données de test pour au moins deux langues. Des sources d'informations autres que les données d'entraînement peuvent avoir été utilisées dans cette tâche partagée.
Page d' accueil : https://aclanthology.org/W02-2024/
Code source :
tfds.text.conll2002.Conll2002
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Mise en cache automatique ( documentation ): Oui
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (configuration par défaut)
Taille du téléchargement :
3.95 MiB
Taille du jeu de données :
3.52 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'dev' | 1 916 |
'test' | 1 518 |
'train' | 8 324 |
- Structure des fonctionnalités :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
ner | Séquence(ClassLabel) | (Aucun,) | int64 | |
position | Séquence(ClassLabel) | (Aucun,) | int64 | |
jetons | Séquence (texte) | (Aucun,) | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
conll2002/nl
Taille du téléchargement :
3.47 MiB
Taille du jeu de données :
3.55 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'dev' | 2 896 |
'test' | 5 196 |
'train' | 15 807 |
- Structure des fonctionnalités :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
ner | Séquence(ClassLabel) | (Aucun,) | int64 | |
position | Séquence(ClassLabel) | (Aucun,) | int64 | |
jetons | Séquence (texte) | (Aucun,) | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):