- বর্ণনা :
CoNLL-2002-এর ভাগ করা কাজটি ভাষা-স্বাধীন নামকৃত সত্তার স্বীকৃতি নিয়ে উদ্বিগ্ন। নামধারী সত্ত্বার ধরনগুলির মধ্যে রয়েছে: ব্যক্তি, অবস্থান, সংস্থা এবং বিবিধ সত্তার নাম যা পূর্ববর্তী তিনটি গোষ্ঠীর অন্তর্গত নয়। ভাগ করা টাস্কের অংশগ্রহণকারীদের কমপক্ষে দুটি ভাষার জন্য প্রশিক্ষণ এবং পরীক্ষার ডেটা দেওয়া হয়েছিল। প্রশিক্ষণের ডেটা ব্যতীত অন্য তথ্য উত্সগুলি এই ভাগ করা টাস্কে ব্যবহার করা হতে পারে।
হোমপেজ : https://aclanthology.org/W02-2024/
সোর্স কোড :
tfds.text.conll2002.Conll2002
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (ডিফল্ট কনফিগারেশন)
ডাউনলোড সাইজ :
3.95 MiB
ডেটাসেটের আকার :
3.52 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'dev' | 1,916 |
'test' | 1,518 |
'train' | ৮,৩২৪ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
ner | সিকোয়েন্স (ক্লাসলেবেল) | (কোনটিই নয়,) | int64 | |
অবস্থান | সিকোয়েন্স (ক্লাসলেবেল) | (কোনটিই নয়,) | int64 | |
টোকেন | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
conll2002/nl
ডাউনলোড সাইজ :
3.47 MiB
ডেটাসেটের আকার :
3.55 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'dev' | 2,896 |
'test' | 5,196 |
'train' | 15,807 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
ner | সিকোয়েন্স (ক্লাসলেবেল) | (কোনটিই নয়,) | int64 | |
অবস্থান | সিকোয়েন্স (ক্লাসলেবেল) | (কোনটিই নয়,) | int64 | |
টোকেন | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):