clinc_oos

Deskripsi :

Sistem dialog berorientasi tugas perlu mengetahui kapan kueri berada di luar jangkauan maksud yang didukungnya, tetapi kumpulan klasifikasi teks saat ini hanya menentukan kumpulan label yang mencakup setiap contoh. Kami memperkenalkan kumpulan data baru yang menyertakan kueri yang berada di luar cakupan (OOS), yaitu kueri yang tidak termasuk dalam maksud apa pun yang didukung sistem. Ini menimbulkan tantangan baru karena model tidak dapat berasumsi bahwa setiap kueri pada waktu inferensi adalah milik kelas maksud yang didukung sistem. Dataset kami juga mencakup 150 kelas maksud di lebih dari 10 domain, menangkap luasnya yang harus ditangani oleh agen berorientasi tugas produksi. Ini menawarkan cara klasifikasi teks pembandingan yang lebih ketat dan realistis dalam sistem dialog berbasis tugas.

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/clinc/oos-eval/
Kode sumber : tfds.text.ClincOOS
Versi :
- 0.1.0 (default): Tidak ada catatan rilis.
Ukuran unduhan : 256.01 KiB
Ukuran dataset : 3.40 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	4.500
`'test_oos'`	1.000
`'train'`	15.000
`'train_oos'`	100
`'validation'`	3.000
`'validation_oos'`	100

Struktur fitur :

FeaturesDict({
    'domain': int32,
    'domain_name': Text(shape=(), dtype=string),
    'intent': int32,
    'intent_name': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
domain	Tensor	int32
nama domain	Teks	rangkaian
maksud	Tensor	int32
maksud_nama	Teks	rangkaian
teks	Teks	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): ('text', 'intent')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{larson-etal-2019-evaluation,
    title = "An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction",
    author = "Larson, Stefan  and
      Mahendran, Anish  and
      Peper, Joseph J.  and
      Clarke, Christopher  and
      Lee, Andrew  and
      Hill, Parker  and
      Kummerfeld, Jonathan K.  and
      Leach, Kevin  and
      Laurenzano, Michael A.  and
      Tang, Lingjia  and
      Mars, Jason",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D19-1131",
    doi = "10.18653/v1/D19-1131",
    pages = "1311--1316",
}