- Deskripsi :
Tugas bersama CoNLL-2002 menyangkut pengenalan entitas bernama yang tidak tergantung bahasa. Jenis entitas bernama meliputi: orang, lokasi, organisasi, dan nama entitas lain yang tidak termasuk dalam tiga kelompok sebelumnya. Para peserta tugas bersama ditawari data pelatihan dan tes untuk setidaknya dua bahasa. Sumber informasi selain data pelatihan mungkin telah digunakan dalam tugas bersama ini.
Beranda : https://aclanthology.org/W02-2024/
Kode sumber :
tfds.text.conll2002.Conll2002
Versi :
-
1.0.0
(default): Rilis awal.
-
Di-cache otomatis ( dokumentasi ): Ya
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (konfigurasi default)
Ukuran unduhan :
3.95 MiB
Ukuran dataset :
3.52 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'dev' | 1.916 |
'test' | 1.518 |
'train' | 8.324 |
- Struktur fitur :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
ner | Urutan(Label Kelas) | (Tidak ada,) | int64 | |
pos | Urutan(Label Kelas) | (Tidak ada,) | int64 | |
token | Urutan (Teks) | (Tidak ada,) | rangkaian |
- Contoh ( tfds.as_dataframe ):
conll2002/nl
Ukuran unduhan :
3.47 MiB
Ukuran dataset :
3.55 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'dev' | 2.896 |
'test' | 5.196 |
'train' | 15.807 |
- Struktur fitur :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
ner | Urutan(Label Kelas) | (Tidak ada,) | int64 | |
pos | Urutan(Label Kelas) | (Tidak ada,) | int64 | |
token | Urutan (Teks) | (Tidak ada,) | rangkaian |
- Contoh ( tfds.as_dataframe ):