- Описание :
Общая задача CoNLL-2002 касается распознавания именованных объектов, не зависящих от языка. Типы именованных сущностей включают в себя: лица, местоположения, организации и названия различных сущностей, не принадлежащих к предыдущим трем группам. Участникам общего задания предлагались обучающие и тестовые данные как минимум для двух языков. В этой общей задаче могли использоваться источники информации, отличные от обучающих данных.
Домашняя страница : https://aclanthology.org/W02-2024/
Исходный код :
tfds.text.conll2002.Conll2002
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Автоматическое кэширование ( документация ): Да
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (конфигурация по умолчанию)
Размер загрузки :
3.95 MiB
Размер набора данных :
3.52 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'dev' | 1916 |
'test' | 1518 |
'train' | 8324 |
- Структура функции :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
нер | Последовательность (метка класса) | (Никто,) | int64 | |
поз | Последовательность (метка класса) | (Никто,) | int64 | |
жетоны | Последовательность (текст) | (Никто,) | нить |
- Примеры ( tfds.as_dataframe ):
conll2002/nl
Размер загрузки :
3.47 MiB
Размер набора данных :
3.55 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'dev' | 2896 |
'test' | 5196 |
'train' | 15 807 |
- Структура функции :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
нер | Последовательность (метка класса) | (Никто,) | int64 | |
поз | Последовательность (метка класса) | (Никто,) | int64 | |
жетоны | Последовательность (текст) | (Никто,) | нить |
- Примеры ( tfds.as_dataframe ):