conll2002

  • विवरण :

CoNLL-2002 का साझा कार्य भाषा-स्वतंत्र नामित इकाई मान्यता से संबंधित है। नामित संस्थाओं के प्रकारों में शामिल हैं: व्यक्ति, स्थान, संगठन और विविध संस्थाओं के नाम जो पिछले तीन समूहों से संबंधित नहीं हैं। साझा कार्य के प्रतिभागियों को कम से कम दो भाषाओं के लिए प्रशिक्षण और परीक्षण डेटा की पेशकश की गई। इस साझा कार्य में प्रशिक्षण डेटा के अलावा अन्य सूचना स्रोतों का उपयोग किया गया हो सकता है।

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डाउनलोड आकार : 3.95 MiB

  • डेटासेट का आकार : 3.52 MiB

  • विभाजन :

विभाजित करना उदाहरण
'dev' 1,916
'test' 1,518
'train' 8,324
  • फ़ीचर संरचना :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
नेर अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
स्थिति अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
टोकन अनुक्रम (पाठ) (कोई भी नहीं,) डोरी

conll2002/nl

  • डाउनलोड आकार : 3.47 MiB

  • डेटासेट का आकार : 3.55 MiB

  • विभाजन :

विभाजित करना उदाहरण
'dev' 2,896
'test' 5,196
'train' 15,807
  • फ़ीचर संरचना :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
नेर अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
स्थिति अनुक्रम (कक्षा लेबल) (कोई भी नहीं,) int64
टोकन अनुक्रम (पाठ) (कोई भी नहीं,) डोरी