conll2002

  • คำอธิบาย :

งานที่ใช้ร่วมกันของ CoNLL-2002 เกี่ยวข้องกับการรับรู้ชื่อเอนทิตีที่ไม่ขึ้นกับภาษา ประเภทของเอนทิตีที่มีชื่อประกอบด้วย: บุคคล สถานที่ องค์กร และชื่อของเอนทิตีเบ็ดเตล็ดที่ไม่ได้อยู่ในสามกลุ่มก่อนหน้านี้ ผู้เข้าร่วมงานที่ใช้ร่วมกันได้รับข้อมูลการฝึกอบรมและทดสอบอย่างน้อยสองภาษา อาจมีการใช้แหล่งข้อมูลนอกเหนือจากข้อมูลการฝึกอบรมในงานที่ใช้ร่วมกันนี้

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (การกำหนดค่าเริ่มต้น)

  • ขนาดการดาวน์โหลด : 3.95 MiB

  • ขนาดชุดข้อมูล : 3.52 MiB

  • แยก :

แยก ตัวอย่าง
'dev' 1,916
'test' 1,518
'train' 8,324
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เนิร์ด ลำดับ (ClassLabel) (ไม่มี,) int64
ตำแหน่ง ลำดับ (ClassLabel) (ไม่มี,) int64
โทเค็น ลำดับ (ข้อความ) (ไม่มี,) สตริง

conll2002/nl

  • ขนาดการดาวน์โหลด : 3.47 MiB

  • ขนาดชุดข้อมูล : 3.55 MiB

  • แยก :

แยก ตัวอย่าง
'dev' 2,896
'test' 5,196
'train' 15,807
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เนิร์ด ลำดับ (ClassLabel) (ไม่มี,) int64
ตำแหน่ง ลำดับ (ClassLabel) (ไม่มี,) int64
โทเค็น ลำดับ (ข้อความ) (ไม่มี,) สตริง