- الوصف :
تحتوي مجموعة بيانات IRC Disentanglement على أكثر من 77563 رسالة من قناة Ubuntu IRC.
تتضمن الميزات معرف الرسالة ونص الرسالة والطابع الزمني. الهدف هو قائمة الرسائل التي ترد عليها الرسالة الحالية. يحتوي كل سجل على قائمة من الرسائل من يوم واحد من دردشة IRC.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://jkk.name/irc-disentanglement
كود المصدر :
tfds.datasets.irc_disentanglement.Builder
إصدارات :
-
2.0.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التحميل :
113.53 MiB
حجم مجموعة البيانات :
26.59 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- هيكل الميزة :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
يوم | تسلسل | |||
يوم / معرف | نص | سلسلة | ||
اليوم / الوالدين | تسلسل (نص) | (لا أحد،) | سلسلة | |
اليوم / النص | نص | سلسلة | ||
اليوم / الطابع الزمني | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}