- Deskripsi :
Sistem dialog berorientasi tugas perlu mengetahui kapan kueri berada di luar jangkauan maksud yang didukungnya, tetapi kumpulan klasifikasi teks saat ini hanya menentukan kumpulan label yang mencakup setiap contoh. Kami memperkenalkan kumpulan data baru yang menyertakan kueri yang berada di luar cakupan (OOS), yaitu kueri yang tidak termasuk dalam maksud apa pun yang didukung sistem. Ini menimbulkan tantangan baru karena model tidak dapat berasumsi bahwa setiap kueri pada waktu inferensi adalah milik kelas maksud yang didukung sistem. Dataset kami juga mencakup 150 kelas maksud di lebih dari 10 domain, menangkap luasnya yang harus ditangani oleh agen berorientasi tugas produksi. Ini menawarkan cara klasifikasi teks pembandingan yang lebih ketat dan realistis dalam sistem dialog berbasis tugas.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/clinc/oos-eval/
Kode sumber :
tfds.text.ClincOOS
Versi :
-
0.1.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
256.01 KiB
Ukuran dataset :
3.40 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 4.500 |
'test_oos' | 1.000 |
'train' | 15.000 |
'train_oos' | 100 |
'validation' | 3.000 |
'validation_oos' | 100 |
- Struktur fitur :
FeaturesDict({
'domain': int32,
'domain_name': Text(shape=(), dtype=string),
'intent': int32,
'intent_name': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
domain | Tensor | int32 | ||
nama domain | Teks | rangkaian | ||
maksud | Tensor | int32 | ||
maksud_nama | Teks | rangkaian | ||
teks | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('text', 'intent')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{larson-etal-2019-evaluation,
title = "An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction",
author = "Larson, Stefan and
Mahendran, Anish and
Peper, Joseph J. and
Clarke, Christopher and
Lee, Andrew and
Hill, Parker and
Kummerfeld, Jonathan K. and
Leach, Kevin and
Laurenzano, Michael A. and
Tang, Lingjia and
Mars, Jason",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/D19-1131",
doi = "10.18653/v1/D19-1131",
pages = "1311--1316",
}