- विवरण :
टास्क-ओरिएंटेड डायलॉग सिस्टम को यह जानने की जरूरत है कि कब कोई क्वेरी उनके समर्थित इरादों की सीमा से बाहर हो जाती है, लेकिन वर्तमान पाठ वर्गीकरण कॉर्पोरा केवल लेबल सेट को परिभाषित करता है जो हर उदाहरण को कवर करता है। हम एक नया डेटासेट पेश करते हैं जिसमें ऐसे प्रश्न शामिल हैं जो दायरे से बाहर (OOS) हैं, यानी, ऐसे प्रश्न जो सिस्टम के किसी भी समर्थित उद्देश्य में नहीं आते हैं। यह एक नई चुनौती पेश करता है क्योंकि मॉडल यह नहीं मान सकते हैं कि अनुमान के समय प्रत्येक क्वेरी सिस्टम-समर्थित आशय वर्ग से संबंधित है। हमारे डेटासेट में 10 डोमेन पर 150 आशय वर्ग भी शामिल हैं, जो उत्पादन कार्य-उन्मुख एजेंट को संभालना चाहिए। यह कार्य-संचालित संवाद प्रणालियों में अधिक कठोर और वास्तविक रूप से बेंचमार्किंग टेक्स्ट वर्गीकरण का एक तरीका प्रदान करता है।
होमपेज : https://github.com/clinc/oos-eval/
स्रोत कोड :
tfds.text.ClincOOS
संस्करण :
-
0.1.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
256.01 KiB
डेटासेट का आकार :
3.40 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 4,500 |
'test_oos' | 1,000 |
'train' | 15,000 |
'train_oos' | 100 |
'validation' | 3,000 |
'validation_oos' | 100 |
- फ़ीचर संरचना :
FeaturesDict({
'domain': int32,
'domain_name': Text(shape=(), dtype=string),
'intent': int32,
'intent_name': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कार्यक्षेत्र | टेन्सर | int32 | ||
डोमेन नाम | मूलपाठ | डोरी | ||
इरादा | टेन्सर | int32 | ||
आशय_नाम | मूलपाठ | डोरी | ||
मूलपाठ | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('text', 'intent')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{larson-etal-2019-evaluation,
title = "An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction",
author = "Larson, Stefan and
Mahendran, Anish and
Peper, Joseph J. and
Clarke, Christopher and
Lee, Andrew and
Hill, Parker and
Kummerfeld, Jonathan K. and
Leach, Kevin and
Laurenzano, Michael A. and
Tang, Lingjia and
Mars, Jason",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/D19-1131",
doi = "10.18653/v1/D19-1131",
pages = "1311--1316",
}