- 説明:
CoNLL-2002 の共有タスクは、言語に依存しない名前付きエンティティの認識に関するものです。名前付きエンティティのタイプには、人、場所、組織、および前の 3 つのグループに属さないその他のエンティティの名前が含まれます。共有タスクの参加者には、少なくとも 2 つの言語のトレーニングとテスト データが提供されました。この共有タスクでは、トレーニング データ以外の情報源が使用された可能性があります。
ソースコード:
tfds.text.conll2002.Conll2002
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
自動キャッシュ(ドキュメント): はい
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (デフォルト構成)
ダウンロードサイズ:
3.95 MiB
データセットサイズ:
3.52 MiB
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,916 |
'test' | 1,518 |
'train' | 8,324 |
- 機能構造:
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ナー | シーケンス(クラスラベル) | (なし、) | int64 | |
位置 | シーケンス(クラスラベル) | (なし、) | int64 | |
トークン | シーケンス(テキスト) | (なし、) | ストリング |
- 例( tfds.as_dataframe ):
conll2002/nl
ダウンロードサイズ:
3.47 MiB
データセットのサイズ:
3.55 MiB
スプリット:
スプリット | 例 |
---|---|
'dev' | 2,896 |
'test' | 5,196 |
'train' | 15,807 |
- 機能構造:
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ナー | シーケンス(クラスラベル) | (なし、) | int64 | |
位置 | シーケンス(クラスラベル) | (なし、) | int64 | |
トークン | シーケンス(テキスト) | (なし、) | ストリング |
- 例( tfds.as_dataframe ):