- 설명 :
이 데이터 세트에는 reddit에서 보낸 ~3M 메시지가 포함되어 있습니다. 모든 메시지에는 메타데이터로 레이블이 지정됩니다. 작업은 해당 스레드에서 상위 메시지의 ID를 예측하는 것입니다. 각 레코드에는 한 스레드의 메시지 목록이 포함됩니다. 중복되거나 끊어진 레코드는 데이터 세트에서 제거됩니다.
기능은 다음과 같습니다.
- ID - 메시지 ID
- 텍스트 - 메시지 텍스트
- 작성자 - 메시지 작성자
- created_utc - 메시지 UTC 타임스탬프
- link_id - 댓글과 관련된 게시물의 ID
표적:
parent_id - 현재 스레드에 있는 상위 메시지의 ID
홈페이지 : https://github.com/henghuiz/MaskedHierarchicalTransformer
버전 :
-
2.0.0
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
Unknown size
데이터세트 크기 :
Unknown size
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로
download_config.manual_dir
해야 합니다(기본값은~/tensorflow_datasets/downloads/manual/
).
https://github.com/henghuiz/MaskedHierarchicalTransformer를 다운로드하고 raw_data.zip의 압축을 풀고 reddit api 자격 증명으로 generate_dataset.py를 실행합니다. 그런 다음 출력 디렉터리의 train.csv, val.csv 및 test.csv를 manual 폴더에 넣습니다.자동 캐시 됨( 문서 ): 알 수 없음
분할 :
나뉘다 | 예 |
---|
- 기능 구조 :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
실 | 순서 | |||
스레드/저자 | 텍스트 | 끈 | ||
스레드/created_utc | 텍스트 | 끈 | ||
스레드/ID | 텍스트 | 끈 | ||
스레드/link_id | 텍스트 | 끈 | ||
스레드/parent_id | 텍스트 | 끈 | ||
스레드/텍스트 | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ): 누락.
인용 :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}