- 説明:
Web スケールの逆置換 (wsrs) を C4 データセットに適用する医療略語拡張データセット。これは、Common Crawl の Web クロール コーパスの巨大でクリーンなバージョンです。
元のソースは Common Crawl データセットです: https://commoncrawl.org
構成の説明: デフォルトの C4-WSRS データセット。
ホームページ: https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
ソースコード:
tfds.text.c4_wsrs.C4WSRS
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ:
143.01 KiB
データセットサイズ:
5.84 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- 機能構造:
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
abbreviated_snippet | 文章 | ストリング | ||
original_snippet | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用: