アスカ

  • 説明

ASQA は、曖昧なファクトイド質問に焦点を当てた初の長文質問応答データセットです。以前の長文回答データセットとは異なり、各質問には長文回答と抽出された質問と回答のペアの両方で注釈が付けられており、生成されたパッセージによって回答できるはずです。生成された長文回答は、ROUGE と QA の両方の精度を使用して評価されます。これらの評価指標が人間の判断とよく相関していることを示しました。このリポストリでは、ASQA データセットと評価コードをリリースします: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>

  • ホームページ: https://github.com/google-research/ language/tree/master/ language/asqa

  • ソース コード: tfds.datasets.asqa.Builder

  • バージョン:

    • 1.0.0 (デフォルト): 初期リリース。
    • 2.0.0 : サンプル ID は int32 (オーバーフロー) から int64 になります。
  • ダウンロードサイズ: 17.86 MiB

  • データセットのサイズ: 14.50 MiB

  • 自動キャッシュ(ドキュメント): はい

  • 分割:

スプリット
'dev' 948
'train' 4,353
  • 機能の構造:
FeaturesDict({
    'ambiguous_question': Text(shape=(), dtype=string),
    'annotations': Sequence({
        'knowledge': Sequence({
            'content': Text(shape=(), dtype=string),
            'wikipage': Text(shape=(), dtype=string),
        }),
        'long_answer': Text(shape=(), dtype=string),
    }),
    'qa_pairs': Sequence({
        'context': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
        'short_answers': Sequence(Text(shape=(), dtype=string)),
        'wikipage': Text(shape=(), dtype=string),
    }),
    'sample_id': int64,
    'wikipages': Sequence({
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
曖昧な質問文章AmbigQA からの曖昧さのない質問。
注釈順序 ASQA アノテーターによって作成された曖昧な質問に対する長い形式の回答。
注釈/知識順序追加のナレッジピースのリスト。
注釈/知識/コンテンツ文章ウィキペディアからの一節。
注釈/知識/ウィキページ文章文章の引用元となった Wikipedia ページのタイトル。
注釈/long_answer文章注釈。
qa_ペア順序曖昧さ回避のために使用される AmbigQA の Q&A ペア。
qa_ペア/コンテキスト文章追加のコンテキストが提供されます。
qa_ペア/質問文章
qa_pairs/short_answersシーケンス(テキスト) (なし、)AmbigQA からの短い回答のリスト。
qa_pairs/wikiページ文章追加のコンテキストが取得された Wikipedia ページのタイトル。
サンプルIDテンソルint64
ウィキページ順序 AmbigQA アノテーターが訪問した Wikipedia ページのリスト。
ウィキページ/タイトル文章ウィキペディアのページのタイトル。
ウィキページ/URL文章ウィキペディアのページへのリンク。
  • 引用
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}