- 説明:
このデータセットには、reddit からの約 3M のメッセージが含まれています。すべてのメッセージはメタデータでラベル付けされています。タスクは、対応するスレッドで親メッセージの ID を予測することです。各レコードには、1 つのスレッドからのメッセージのリストが含まれています。重複したレコードや壊れたレコードはデータセットから削除されます。
機能は次のとおりです。
- id - メッセージ ID
- テキスト - メッセージテキスト
- 作者 - メッセージ作者
- created_utc - メッセージの UTC タイムスタンプ
- link_id - コメントが関連する投稿の ID
目標:
parent_id - 現在のスレッドの親メッセージの ID
ホームページ: https://github.com/henghuiz/MaskedHierarchicalTransformer
バージョン:
-
2.0.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ: サイズ
Unknown size
データセットのサイズ: サイズ
Unknown size
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
https://github.com/henghuiz/MaskedHierarchicalTransformer をダウンロードし、raw_data.zip を解凍し、reddit API 資格情報を使用して generate_dataset.py を実行します。次に、出力ディレクトリから train.csv、val.csv、test.csv を manual フォルダーに配置します。自動キャッシュ(ドキュメント): 不明
スプリット:
スプリット | 例 |
---|
- 機能構造:
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
糸 | 順序 | |||
スレッド/著者 | 文章 | ストリング | ||
スレッド/created_utc | 文章 | ストリング | ||
スレッド/ID | 文章 | ストリング | ||
スレッド/link_id | 文章 | ストリング | ||
スレッド/parent_id | 文章 | ストリング | ||
スレッド/テキスト | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ): ありません。
引用:
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}