clinc_oos

  • Deskripsi :

Sistem dialog berorientasi tugas perlu mengetahui kapan kueri berada di luar jangkauan maksud yang didukungnya, tetapi kumpulan klasifikasi teks saat ini hanya menentukan kumpulan label yang mencakup setiap contoh. Kami memperkenalkan kumpulan data baru yang menyertakan kueri yang berada di luar cakupan (OOS), yaitu kueri yang tidak termasuk dalam maksud apa pun yang didukung sistem. Ini menimbulkan tantangan baru karena model tidak dapat berasumsi bahwa setiap kueri pada waktu inferensi adalah milik kelas maksud yang didukung sistem. Dataset kami juga mencakup 150 kelas maksud di lebih dari 10 domain, menangkap luasnya yang harus ditangani oleh agen berorientasi tugas produksi. Ini menawarkan cara klasifikasi teks pembandingan yang lebih ketat dan realistis dalam sistem dialog berbasis tugas.

Membelah Contoh
'test' 4.500
'test_oos' 1.000
'train' 15.000
'train_oos' 100
'validation' 3.000
'validation_oos' 100
  • Struktur fitur :
FeaturesDict({
    'domain': int32,
    'domain_name': Text(shape=(), dtype=string),
    'intent': int32,
    'intent_name': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
domain Tensor int32
nama domain Teks rangkaian
maksud Tensor int32
maksud_nama Teks rangkaian
teks Teks rangkaian
  • Kutipan :
@inproceedings{larson-etal-2019-evaluation,
    title = "An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction",
    author = "Larson, Stefan  and
      Mahendran, Anish  and
      Peper, Joseph J.  and
      Clarke, Christopher  and
      Lee, Andrew  and
      Hill, Parker  and
      Kummerfeld, Jonathan K.  and
      Leach, Kevin  and
      Laurenzano, Michael A.  and
      Tang, Lingjia  and
      Mars, Jason",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D19-1131",
    doi = "10.18653/v1/D19-1131",
    pages = "1311--1316",
}