amazon_reviews_multi

참고자료:

모든_언어

TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.

ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이센스 권리 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고, 비독점적이며, 양도 불가능하고, 재라이센스 부여가 불가능하고, 취소 가능한 라이센스를 귀하에게 부여합니다. 귀하는 자금 조달이나 컨설팅 계약, 인턴십 또는 결과가 발생하는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판하거나 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결하거나 연관시킬 수 없으며, (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 귀하가 전술한 조건 중 하나라도 위반하는 경우, 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이센스는 Amazon이 가질 수 있는 다른 권리나 구제책을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 30000
'train' 1200000
'validation' 30000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.

ds = tfds.load('huggingface:amazon_reviews_multi/de')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이센스 권리 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고, 비독점적이며, 양도 불가능하고, 재라이센스 부여가 불가능하고, 취소 가능한 라이센스를 귀하에게 부여합니다. 귀하는 자금 조달이나 컨설팅 계약, 인턴십 또는 결과가 발생하는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판 또는 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결하거나 연관시킬 수 없으며, (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 귀하가 전술한 조건 중 하나라도 위반하는 경우, 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이센스는 Amazon이 가질 수 있는 다른 권리나 구제책을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

ko

TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.

ds = tfds.load('huggingface:amazon_reviews_multi/en')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이센스 권리 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고, 비독점적이며, 양도 불가능하고, 재라이센스 부여가 불가능하고, 취소 가능한 라이센스를 귀하에게 부여합니다. 귀하는 자금 조달이나 컨설팅 계약, 인턴십 또는 결과가 발생하는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판하거나 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결하거나 연관시킬 수 없으며, (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 귀하가 전술한 조건 중 하나라도 위반하는 경우, 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이센스는 Amazon이 가질 수 있는 다른 권리나 구제책을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.

ds = tfds.load('huggingface:amazon_reviews_multi/es')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이센스 권리 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고, 비독점적이며, 양도 불가능하고, 재라이센스 부여가 불가능하고, 취소 가능한 라이센스를 귀하에게 부여합니다. 귀하는 자금 조달이나 컨설팅 계약, 인턴십 또는 결과가 관련된 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스의 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판하거나 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결하거나 연관시킬 수 없으며, (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 귀하가 전술한 조건 중 하나라도 위반하는 경우, 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이센스는 Amazon이 가질 수 있는 다른 권리나 구제책을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

정말로

TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.

ds = tfds.load('huggingface:amazon_reviews_multi/fr')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이센스 권리 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고, 비독점적이며, 양도 불가능하고, 재라이센스 부여가 불가능하고, 취소 가능한 라이센스를 귀하에게 부여합니다. 귀하는 자금 조달이나 컨설팅 계약, 인턴십 또는 결과가 발생하는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판하거나 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결하거나 연관시킬 수 없으며, (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 귀하가 전술한 조건 중 하나라도 위반하는 경우, 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이센스는 Amazon이 가질 수 있는 다른 권리나 구제책을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.

ds = tfds.load('huggingface:amazon_reviews_multi/ja')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이센스 권리 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고, 비독점적이며, 양도 불가능하고, 재라이센스 부여가 불가능하고, 취소 가능한 라이센스를 귀하에게 부여합니다. 귀하는 자금 조달이나 컨설팅 계약, 인턴십 또는 결과가 발생하는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판 또는 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결하거나 연관시킬 수 없으며, (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 귀하가 전술한 조건 중 하나라도 위반하는 경우, 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이센스는 Amazon이 가질 수 있는 다른 권리나 구제책을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

zh

TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.

ds = tfds.load('huggingface:amazon_reviews_multi/zh')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. books, appliances, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이센스 권리 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고, 비독점적이며, 양도 불가능하고, 재라이센스 부여가 불가능하고, 취소 가능한 라이센스를 귀하에게 부여합니다. 귀하는 자금 조달이나 컨설팅 계약, 인턴십 또는 결과가 발생하는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판하거나 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결하거나 연관시킬 수 없으며, (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 귀하가 전술한 조건을 위반하는 경우, 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이센스는 Amazon이 가질 수 있는 다른 권리나 구제책을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}