- 설명 :
IRC Disentanglement 데이터 세트에는 Ubuntu IRC 채널의 77,563개 이상의 메시지가 포함되어 있습니다.
기능에는 메시지 ID, 메시지 텍스트 및 타임스탬프가 포함됩니다. 대상은 현재 메시지가 회신하는 메시지 목록입니다. 각 레코드에는 IRC 채팅의 하루 메시지 목록이 포함되어 있습니다.
버전 :
-
2.0.0
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
113.53 MiB
데이터 세트 크기 :
26.59 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- 기능 구조 :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
낮 | 순서 | |||
요일/ID | 텍스트 | 끈 | ||
일/부모 | 시퀀스(텍스트) | (없음,) | 끈 | |
일/문자 | 텍스트 | 끈 | ||
날짜/타임스탬프 | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}