- विवरण :
CoNLL-2002 का साझा कार्य भाषा-स्वतंत्र नामित इकाई मान्यता से संबंधित है। नामित संस्थाओं के प्रकारों में शामिल हैं: व्यक्ति, स्थान, संगठन और विविध संस्थाओं के नाम जो पिछले तीन समूहों से संबंधित नहीं हैं। साझा कार्य के प्रतिभागियों को कम से कम दो भाषाओं के लिए प्रशिक्षण और परीक्षण डेटा की पेशकश की गई। इस साझा कार्य में प्रशिक्षण डेटा के अलावा अन्य सूचना स्रोतों का उपयोग किया गया हो सकता है।
होमपेज : https://aclanthology.org/W02-2024/
स्रोत कोड :
tfds.text.conll2002.Conll2002
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (डिफ़ॉल्ट कॉन्फ़िगरेशन)
डाउनलोड आकार :
3.95 MiB
डेटासेट का आकार :
3.52 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'dev' | 1,916 |
'test' | 1,518 |
'train' | 8,324 |
- फ़ीचर संरचना :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
नेर | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
स्थिति | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
टोकन | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी |
- उदाहरण ( tfds.as_dataframe ):
conll2002/nl
डाउनलोड आकार :
3.47 MiB
डेटासेट का आकार :
3.55 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'dev' | 2,896 |
'test' | 5,196 |
'train' | 15,807 |
- फ़ीचर संरचना :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
नेर | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
स्थिति | अनुक्रम (कक्षा लेबल) | (कोई भी नहीं,) | int64 | |
टोकन | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी |
- उदाहरण ( tfds.as_dataframe ):