conll2002

  • Описание :

Общая задача CoNLL-2002 касается распознавания именованных объектов, не зависящих от языка. Типы именованных сущностей включают в себя: лица, местоположения, организации и названия различных сущностей, не принадлежащих к предыдущим трем группам. Участникам общего задания предлагались обучающие и тестовые данные как минимум для двух языков. В этой общей задаче могли использоваться источники информации, отличные от обучающих данных.

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (конфигурация по умолчанию)

  • Размер загрузки : 3.95 MiB

  • Размер набора данных : 3.52 MiB .

  • Сплиты :

Расколоть Примеры
'dev' 1916
'test' 1518
'train' 8324
  • Структура функции :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
нер Последовательность (метка класса) (Никто,) int64
поз Последовательность (метка класса) (Никто,) int64
жетоны Последовательность (текст) (Никто,) нить

conll2002/nl

  • Размер загрузки : 3.47 MiB

  • Размер набора данных : 3.55 MiB .

  • Сплиты :

Расколоть Примеры
'dev' 2896
'test' 5196
'train' 15 807
  • Структура функции :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
нер Последовательность (метка класса) (Никто,) int64
поз Последовательность (метка класса) (Никто,) int64
жетоны Последовательность (текст) (Никто,) нить