- বর্ণনা :
IRC Disentanglement ডেটাসেটে উবুন্টু IRC চ্যানেল থেকে 77,563 টিরও বেশি বার্তা রয়েছে।
বৈশিষ্ট্য বার্তা আইডি, বার্তা পাঠ্য এবং টাইমস্ট্যাম্প অন্তর্ভুক্ত. টার্গেট হল সেই বার্তাগুলির তালিকা যা বর্তমান বার্তাটি উত্তর দেয়৷ প্রতিটি রেকর্ডে IRC চ্যাটের একদিনের বার্তাগুলির একটি তালিকা রয়েছে।
হোমপেজ : https://jkk.name/irc-disentanglement
সোর্স কোড :
tfds.datasets.irc_disentanglement.Builder
সংস্করণ :
-
2.0.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
113.53 MiB
ডেটাসেটের আকার :
26.59 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
দিন | ক্রম | |||
দিন/আইডি | পাঠ্য | স্ট্রিং | ||
দিন/বাবা-মা | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং | |
দিন/পাঠ্য | পাঠ্য | স্ট্রিং | ||
দিন/টাইমস্ট্যাম্প | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}