kontrol2002

  • Deskripsi :

Tugas bersama CoNLL-2002 menyangkut pengenalan entitas bernama yang tidak tergantung bahasa. Jenis entitas bernama meliputi: orang, lokasi, organisasi, dan nama entitas lain yang tidak termasuk dalam tiga kelompok sebelumnya. Para peserta tugas bersama ditawari data pelatihan dan tes untuk setidaknya dua bahasa. Sumber informasi selain data pelatihan mungkin telah digunakan dalam tugas bersama ini.

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (konfigurasi default)

  • Ukuran unduhan : 3.95 MiB

  • Ukuran dataset : 3.52 MiB

  • Perpecahan :

Membelah Contoh
'dev' 1.916
'test' 1.518
'train' 8.324
  • Struktur fitur :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
ner Urutan(Label Kelas) (Tidak ada,) int64
pos Urutan(Label Kelas) (Tidak ada,) int64
token Urutan (Teks) (Tidak ada,) rangkaian

conll2002/nl

  • Ukuran unduhan : 3.47 MiB

  • Ukuran dataset : 3.55 MiB

  • Perpecahan :

Membelah Contoh
'dev' 2.896
'test' 5.196
'train' 15.807
  • Struktur fitur :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
ner Urutan(Label Kelas) (Tidak ada,) int64
pos Urutan(Label Kelas) (Tidak ada,) int64
token Urutan (Teks) (Tidak ada,) rangkaian