amazon_reviews_multi

Referências:

todos_idiomas

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
  • Descrição :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Além dos direitos de licença concedidos sob as Condições de Uso, a Amazon ou seus provedores de conteúdo concedem a você uma licença limitada, não exclusiva, intransferível, não sublicenciável e revogável para acessar e usar o Reviews Corpus para fins de pesquisa acadêmica. Você não pode revender, republicar ou fazer qualquer uso comercial do Reviews Corpus ou de seu conteúdo, incluindo o uso do Reviews Corpus para pesquisas comerciais, como pesquisas relacionadas a um contrato de financiamento ou consultoria, estágio ou outro relacionamento em que os resultados são fornecidos mediante o pagamento de uma taxa ou entregues a uma organização com fins lucrativos. Você não pode (a) vincular ou associar o conteúdo do Corpus de Avaliações a qualquer informação pessoal (incluindo contas de clientes da Amazon) ou (b) tentar determinar a identidade do autor de qualquer conteúdo do Corpus de Avaliações. Se você violar qualquer uma das condições anteriores, sua licença para acessar e usar o Corpus de Avaliações será automaticamente rescindida, sem prejuízo de qualquer outro direito ou recurso que a Amazon possa ter.

  • Versão : 1.0.0
  • Divisões :
Dividir Exemplos
'test' 30.000
'train' 1.200.000
'validation' 30.000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

de

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/de')
  • Descrição :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Além dos direitos de licença concedidos sob as Condições de Uso, a Amazon ou seus provedores de conteúdo concedem a você uma licença limitada, não exclusiva, intransferível, não sublicenciável e revogável para acessar e usar o Reviews Corpus para fins de pesquisa acadêmica. Você não pode revender, republicar ou fazer qualquer uso comercial do Reviews Corpus ou de seu conteúdo, incluindo o uso do Reviews Corpus para pesquisas comerciais, como pesquisas relacionadas a um contrato de financiamento ou consultoria, estágio ou outro relacionamento em que os resultados são fornecidos por uma taxa ou entregues a uma organização com fins lucrativos. Você não pode (a) vincular ou associar o conteúdo do Corpus de Avaliações a qualquer informação pessoal (incluindo contas de clientes da Amazon) ou (b) tentar determinar a identidade do autor de qualquer conteúdo do Corpus de Avaliações. Se você violar qualquer uma das condições anteriores, sua licença para acessar e usar o Corpus de Avaliações será automaticamente rescindida, sem prejuízo de qualquer outro direito ou recurso que a Amazon possa ter.

  • Versão : 1.0.0
  • Divisões :
Dividir Exemplos
'test' 5.000
'train' 200.000
'validation' 5.000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

pt

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/en')
  • Descrição :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Além dos direitos de licença concedidos sob as Condições de Uso, a Amazon ou seus provedores de conteúdo concedem a você uma licença limitada, não exclusiva, intransferível, não sublicenciável e revogável para acessar e usar o Reviews Corpus para fins de pesquisa acadêmica. Você não pode revender, republicar ou fazer qualquer uso comercial do Reviews Corpus ou de seu conteúdo, incluindo o uso do Reviews Corpus para pesquisas comerciais, como pesquisas relacionadas a um contrato de financiamento ou consultoria, estágio ou outro relacionamento em que os resultados são fornecidos por uma taxa ou entregues a uma organização com fins lucrativos. Você não pode (a) vincular ou associar o conteúdo do Corpus de Avaliações a qualquer informação pessoal (incluindo contas de clientes da Amazon) ou (b) tentar determinar a identidade do autor de qualquer conteúdo do Corpus de Avaliações. Se você violar qualquer uma das condições anteriores, sua licença para acessar e usar o Corpus de Avaliações será automaticamente rescindida, sem prejuízo de qualquer outro direito ou recurso que a Amazon possa ter.

  • Versão : 1.0.0
  • Divisões :
Dividir Exemplos
'test' 5.000
'train' 200.000
'validation' 5.000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

é

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/es')
  • Descrição :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Além dos direitos de licença concedidos sob as Condições de Uso, a Amazon ou seus provedores de conteúdo concedem a você uma licença limitada, não exclusiva, intransferível, não sublicenciável e revogável para acessar e usar o Reviews Corpus para fins de pesquisa acadêmica. Você não pode revender, republicar ou fazer qualquer uso comercial do Reviews Corpus ou de seu conteúdo, incluindo o uso do Reviews Corpus para pesquisas comerciais, como pesquisas relacionadas a um contrato de financiamento ou consultoria, estágio ou outro relacionamento em que os resultados são fornecidos por uma taxa ou entregues a uma organização com fins lucrativos. Você não pode (a) vincular ou associar o conteúdo do Corpus de Avaliações a qualquer informação pessoal (incluindo contas de clientes da Amazon) ou (b) tentar determinar a identidade do autor de qualquer conteúdo do Corpus de Avaliações. Se você violar qualquer uma das condições anteriores, sua licença para acessar e usar o Corpus de Avaliações será automaticamente rescindida, sem prejuízo de qualquer outro direito ou recurso que a Amazon possa ter.

  • Versão : 1.0.0
  • Divisões :
Dividir Exemplos
'test' 5.000
'train' 200.000
'validation' 5.000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

franco

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/fr')
  • Descrição :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Além dos direitos de licença concedidos sob as Condições de Uso, a Amazon ou seus provedores de conteúdo concedem a você uma licença limitada, não exclusiva, intransferível, não sublicenciável e revogável para acessar e usar o Reviews Corpus para fins de pesquisa acadêmica. Você não pode revender, republicar ou fazer qualquer uso comercial do Reviews Corpus ou de seu conteúdo, incluindo o uso do Reviews Corpus para pesquisas comerciais, como pesquisas relacionadas a um contrato de financiamento ou consultoria, estágio ou outro relacionamento em que os resultados são fornecidos mediante o pagamento de uma taxa ou entregues a uma organização com fins lucrativos. Você não pode (a) vincular ou associar o conteúdo do Corpus de Avaliações a qualquer informação pessoal (incluindo contas de clientes da Amazon) ou (b) tentar determinar a identidade do autor de qualquer conteúdo do Corpus de Avaliações. Se você violar qualquer uma das condições anteriores, sua licença para acessar e usar o Corpus de Avaliações será automaticamente rescindida, sem prejuízo de qualquer outro direito ou recurso que a Amazon possa ter.

  • Versão : 1.0.0
  • Divisões :
Dividir Exemplos
'test' 5.000
'train' 200.000
'validation' 5.000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

sim

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/ja')
  • Descrição :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Além dos direitos de licença concedidos sob as Condições de Uso, a Amazon ou seus provedores de conteúdo concedem a você uma licença limitada, não exclusiva, intransferível, não sublicenciável e revogável para acessar e usar o Reviews Corpus para fins de pesquisa acadêmica. Você não pode revender, republicar ou fazer qualquer uso comercial do Reviews Corpus ou de seu conteúdo, incluindo o uso do Reviews Corpus para pesquisas comerciais, como pesquisas relacionadas a um contrato de financiamento ou consultoria, estágio ou outro relacionamento em que os resultados são fornecidos mediante o pagamento de uma taxa ou entregues a uma organização com fins lucrativos. Você não pode (a) vincular ou associar o conteúdo do Corpus de Avaliações a qualquer informação pessoal (incluindo contas de clientes da Amazon) ou (b) tentar determinar a identidade do autor de qualquer conteúdo do Corpus de Avaliações. Se você violar qualquer uma das condições anteriores, sua licença para acessar e usar o Corpus de Avaliações será automaticamente rescindida, sem prejuízo de qualquer outro direito ou recurso que a Amazon possa ter.

  • Versão : 1.0.0
  • Divisões :
Dividir Exemplos
'test' 5.000
'train' 200.000
'validation' 5.000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

z

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/zh')
  • Descrição :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Além dos direitos de licença concedidos sob as Condições de Uso, a Amazon ou seus provedores de conteúdo concedem a você uma licença limitada, não exclusiva, intransferível, não sublicenciável e revogável para acessar e usar o Reviews Corpus para fins de pesquisa acadêmica. Você não pode revender, republicar ou fazer qualquer uso comercial do Reviews Corpus ou de seu conteúdo, incluindo o uso do Reviews Corpus para pesquisas comerciais, como pesquisas relacionadas a um contrato de financiamento ou consultoria, estágio ou outro relacionamento em que os resultados são fornecidos mediante o pagamento de uma taxa ou entregues a uma organização com fins lucrativos. Você não pode (a) vincular ou associar o conteúdo do Corpus de Avaliações a qualquer informação pessoal (incluindo contas de clientes da Amazon) ou (b) tentar determinar a identidade do autor de qualquer conteúdo do Corpus de Avaliações. Se você violar qualquer uma das condições anteriores, sua licença para acessar e usar o Corpus de Avaliações será automaticamente rescindida, sem prejuízo de qualquer outro direito ou recurso que a Amazon possa ter.

  • Versão : 1.0.0
  • Divisões :
Dividir Exemplos
'test' 5.000
'train' 200.000
'validation' 5.000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}