- คำอธิบาย :
ชุดข้อมูล IRC Disentanglement มีข้อความมากกว่า 77,563 ข้อความจากช่อง IRC ของ Ubuntu
คุณสมบัติรวมถึงรหัสข้อความ ข้อความข้อความ และการประทับเวลา เป้าหมายคือรายการข้อความที่ข้อความปัจจุบันตอบกลับ แต่ละบันทึกประกอบด้วยรายการข้อความจากการแชท IRC หนึ่งวัน
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://jkk.name/irc-disentanglement
รหัสแหล่งที่มา :
tfds.datasets.irc_disentanglement.Builder
รุ่น :
-
2.0.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด :
113.53 MiB
ขนาดชุดข้อมูล :
26.59 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
วัน | ลำดับ | |||
วัน/รหัส | ข้อความ | สตริง | ||
วัน/พ่อแม่ | ลำดับ (ข้อความ) | (ไม่มี,) | สตริง | |
วัน/ข้อความ | ข้อความ | สตริง | ||
วัน/เวลา | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}