amazon_reviews_multi

参考文献:

すべての言語

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
  • 説明
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ライセンス: 多言語 Amazon レビュー コーパス (「レビュー コーパス」) にアクセスすると、レビュー コーパスが Amazon.com の利用規約 ( https://www.amazon.com/gp/help/)の対象となる Amazon のサービスであることに同意したものとみなされます。 customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 )、以下の追加条件付きでそれらに拘束されることに同意したことになります。

使用条件に基づいて付与されるライセンス権利に加え、Amazon またはそのコンテンツプロバイダーは、学術研究の目的でレビュー コーパスにアクセスして使用するための限定的、非独占的、譲渡不可、サブライセンス不可、取消可能なライセンスをお客様に付与します。レビュー コーパスまたはそのコンテンツを再販、再発行、または商業利用することはできません。これには、資金提供やコンサルタント契約、インターンシップ、または結果が関係するその他の関係に関連する研究などの商業研究のためのレビュー コーパスの使用も含まれます。有料で提供されるか、営利団体に配信されます。お客様は、(a) レビュー コーパス内のコンテンツを個人情報 (Amazon 顧客アカウントを含む) にリンクまたは関連付けたり、(b) レビュー コーパス内のコンテンツの作成者の身元を特定しようとしたりすることはできません。上記の条件のいずれかに違反した場合、レビュー コーパスにアクセスして使用するライセンスは、Amazon が有する他の権利や救済策を損なうことなく自動的に終了します。

  • バージョン: 1.0.0
  • 分割:
スプリット
'test' 30000
'train' 1200000
'validation' 30000
  • 特徴
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:amazon_reviews_multi/de')
  • 説明
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ライセンス: 多言語 Amazon レビュー コーパス (「レビュー コーパス」) にアクセスすると、レビュー コーパスが Amazon.com の利用規約 ( https://www.amazon.com/gp/help/)の対象となる Amazon のサービスであることに同意したものとみなされます。 customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 )、以下の追加条件付きでそれらに拘束されることに同意したことになります。

使用条件に基づいて付与されるライセンス権利に加え、Amazon またはそのコンテンツプロバイダーは、学術研究の目的でレビュー コーパスにアクセスして使用するための限定的、非独占的、譲渡不可、サブライセンス不可、取消可能なライセンスをお客様に付与します。レビュー コーパスまたはそのコンテンツを再販、再発行、または商業利用することはできません。これには、資金提供やコンサルタント契約、インターンシップ、または結果が関係するその他の関係に関連する研究などの商業研究のためのレビュー コーパスの使用も含まれます。有料で提供されるか、営利団体に配信されます。お客様は、(a) レビュー コーパス内のコンテンツを個人情報 (Amazon 顧客アカウントを含む) にリンクまたは関連付けたり、(b) レビュー コーパス内のコンテンツの作成者の身元を特定しようとしたりすることはできません。上記の条件のいずれかに違反した場合、レビュー コーパスにアクセスして使用するライセンスは、Amazon が有する他の権利や救済策を損なうことなく自動的に終了します。

  • バージョン: 1.0.0
  • 分割:
スプリット
'test' 5000
'train' 200000
'validation' 5000
  • 特徴
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

jp

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:amazon_reviews_multi/en')
  • 説明
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ライセンス: 多言語 Amazon レビュー コーパス (「レビュー コーパス」) にアクセスすると、レビュー コーパスが Amazon.com の利用規約 ( https://www.amazon.com/gp/help/)の対象となる Amazon のサービスであることに同意したものとみなされます。 customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 )、以下の追加条件付きでそれらに拘束されることに同意したことになります。

使用条件に基づいて付与されるライセンス権利に加え、Amazon またはそのコンテンツプロバイダーは、学術研究の目的でレビュー コーパスにアクセスして使用するための限定的、非独占的、譲渡不可、サブライセンス不可、取消可能なライセンスをお客様に付与します。レビュー コーパスまたはそのコンテンツを再販、再発行、または商業利用することはできません。これには、資金提供やコンサルタント契約、インターンシップ、または結果が関係するその他の関係に関連する研究などの商業研究のためのレビュー コーパスの使用も含まれます。有料で提供されるか、営利団体に配信されます。お客様は、(a) レビュー コーパス内のコンテンツを個人情報 (Amazon 顧客アカウントを含む) にリンクまたは関連付けたり、(b) レビュー コーパス内のコンテンツの作成者の身元を特定しようとしたりすることはできません。上記の条件のいずれかに違反した場合、レビュー コーパスにアクセスして使用するライセンスは、Amazon が有する他の権利や救済策を損なうことなく自動的に終了します。

  • バージョン: 1.0.0
  • 分割:
スプリット
'test' 5000
'train' 200000
'validation' 5000
  • 特徴
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

エス

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:amazon_reviews_multi/es')
  • 説明
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ライセンス: 多言語 Amazon レビュー コーパス (「レビュー コーパス」) にアクセスすると、レビュー コーパスが Amazon.com の利用規約 ( https://www.amazon.com/gp/help/)の対象となる Amazon のサービスであることに同意したものとみなされます。 customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 )、以下の追加条件付きでそれらに拘束されることに同意したことになります。

使用条件に基づいて付与されるライセンス権利に加え、Amazon またはそのコンテンツプロバイダーは、学術研究の目的でレビュー コーパスにアクセスして使用するための限定的、非独占的、譲渡不可、サブライセンス不可、取消可能なライセンスをお客様に付与します。レビュー コーパスまたはそのコンテンツを再販、再発行、または商業利用することはできません。これには、資金提供やコンサルタント契約、インターンシップ、または結果が関係するその他の関係に関連する研究などの商業研究のためのレビュー コーパスの使用も含まれます。有料で提供されるか、営利団体に配信されます。お客様は、(a) レビュー コーパス内のコンテンツを個人情報 (Amazon 顧客アカウントを含む) にリンクまたは関連付けたり、(b) レビュー コーパス内のコンテンツの作成者の身元を特定しようとしたりすることはできません。上記の条件のいずれかに違反した場合、レビュー コーパスにアクセスして使用するライセンスは、Amazon が有する他の権利や救済策を損なうことなく自動的に終了します。

  • バージョン: 1.0.0
  • 分割:
スプリット
'test' 5000
'train' 200000
'validation' 5000
  • 特徴
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

フランス

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:amazon_reviews_multi/fr')
  • 説明
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ライセンス: 多言語 Amazon レビュー コーパス (「レビュー コーパス」) にアクセスすると、レビュー コーパスが Amazon.com の利用規約 ( https://www.amazon.com/gp/help/)の対象となる Amazon のサービスであることに同意したものとみなされます。 customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 )、以下の追加条件付きでそれらに拘束されることに同意したことになります。

使用条件に基づいて付与されるライセンス権利に加え、Amazon またはそのコンテンツプロバイダーは、学術研究の目的でレビュー コーパスにアクセスして使用するための限定的、非独占的、譲渡不可、サブライセンス不可、取消可能なライセンスをお客様に付与します。レビュー コーパスまたはそのコンテンツを再販、再発行、または商業利用することはできません。これには、資金提供やコンサルタント契約、インターンシップ、または結果が関係するその他の関係に関連する研究などの商業研究のためのレビュー コーパスの使用も含まれます。有料で提供されるか、営利団体に配信されます。お客様は、(a) レビュー コーパス内のコンテンツを個人情報 (Amazon 顧客アカウントを含む) にリンクまたは関連付けたり、(b) レビュー コーパス内のコンテンツの作成者の身元を特定しようとしたりすることはできません。上記の条件のいずれかに違反した場合、レビュー コーパスにアクセスして使用するライセンスは、Amazon が有する他の権利や救済策を損なうことなく自動的に終了します。

  • バージョン: 1.0.0
  • 分割:
スプリット
'test' 5000
'train' 200000
'validation' 5000
  • 特徴
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

じゃ

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:amazon_reviews_multi/ja')
  • 説明
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ライセンス: 多言語 Amazon レビュー コーパス (「レビュー コーパス」) にアクセスすると、レビュー コーパスが Amazon.com の利用規約 ( https://www.amazon.com/gp/help/)の対象となる Amazon のサービスであることに同意したものとみなされます。 customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 )、以下の追加条件付きでそれらに拘束されることに同意したことになります。

使用条件に基づいて付与されるライセンス権利に加え、Amazon またはそのコンテンツプロバイダーは、学術研究の目的でレビュー コーパスにアクセスして使用するための限定的、非独占的、譲渡不可、サブライセンス不可、取消可能なライセンスをお客様に付与します。レビュー コーパスまたはそのコンテンツを再販、再発行、または商業利用することはできません。これには、資金提供やコンサルタント契約、インターンシップ、または結果が関係するその他の関係に関連する研究などの商業研究のためのレビュー コーパスの使用も含まれます。有料で提供されるか、営利団体に配信されます。お客様は、(a) レビュー コーパス内のコンテンツを個人情報 (Amazon 顧客アカウントを含む) にリンクまたは関連付けたり、(b) レビュー コーパス内のコンテンツの作成者の身元を特定しようとしたりすることはできません。上記の条件のいずれかに違反した場合、レビュー コーパスにアクセスして使用するライセンスは、Amazon が有する他の権利や救済策を損なうことなく自動的に終了します。

  • バージョン: 1.0.0
  • 分割:
スプリット
'test' 5000
'train' 200000
'validation' 5000
  • 特徴
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

zh

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:amazon_reviews_multi/zh')
  • 説明
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ライセンス: 多言語 Amazon レビュー コーパス (「レビュー コーパス」) にアクセスすると、レビュー コーパスが Amazon.com の利用規約 ( https://www.amazon.com/gp/help/)の対象となる Amazon のサービスであることに同意したものとみなされます。 customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 )、以下の追加条件付きでそれらに拘束されることに同意したことになります。

使用条件に基づいて付与されるライセンス権利に加え、Amazon またはそのコンテンツプロバイダーは、学術研究の目的でレビュー コーパスにアクセスして使用するための限定的、非独占的、譲渡不可、サブライセンス不可、取消可能なライセンスをお客様に付与します。レビュー コーパスまたはそのコンテンツを再販、再発行、または商業利用することはできません。これには、資金提供やコンサルタント契約、インターンシップ、または結果が関係するその他の関係に関連する研究などの商業研究のためのレビュー コーパスの使用も含まれます。有料で提供されるか、営利団体に配信されます。お客様は、(a) レビュー コーパス内のコンテンツを個人情報 (Amazon 顧客アカウントを含む) にリンクまたは関連付けたり、(b) レビュー コーパス内のコンテンツの作成者の身元を特定しようとしたりすることはできません。上記の条件のいずれかに違反した場合、レビュー コーパスにアクセスして使用するライセンスは、Amazon が有する他の権利や救済策を損なうことなく自動的に終了します。

  • バージョン: 1.0.0
  • 分割:
スプリット
'test' 5000
'train' 200000
'validation' 5000
  • 特徴
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}