c4_wsrs

  • 説明:

Web スケールの逆置換 (wsrs) を C4 データセットに適用する医療略語拡張データセット。これは、Common Crawl の Web クロール コーパスの巨大でクリーンなバージョンです。

元のソースは Common Crawl データセットです: https://commoncrawl.org

スプリット
'train' 9,575,852
'validation' 991,422
  • 機能構造:
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
abbreviated_snippet文章ストリング
original_snippet文章ストリング
  • 引用

c4_wsrs/default (デフォルト設定)