amazon_reviews_multi

Ссылки:

все_языки

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
  • Описание :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • Лицензия : получая доступ к многоязычному корпусу обзоров Amazon («Корпус обзоров»), вы соглашаетесь с тем, что корпус обзоров является сервисом Amazon, на который распространяются Условия использования Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ), и вы соглашаетесь соблюдать их со следующими дополнительными условиями:

В дополнение к лицензионным правам, предоставленным в соответствии с Условиями использования, Amazon или ее поставщики контента предоставляют вам ограниченную, неисключительную, непередаваемую, не подлежащую сублицензированию и отзывную лицензию на доступ и использование Корпуса обзоров в целях научных исследований. Вы не имеете права перепродавать, переиздавать или использовать в коммерческих целях Корпус обзоров или его содержимое, включая использование Корпуса обзоров для коммерческих исследований, таких как исследования, связанные с контрактом на финансирование или консультирование, стажировкой или другими отношениями, в которых результаты предоставляются за определенную плату или доставляются в коммерческую организацию. Вы не имеете права (а) связывать или ассоциировать контент Корпуса обзоров с какой-либо личной информацией (включая учетные записи клиентов Amazon) или (б) пытаться определить личность автора любого контента Корпуса обзоров. Если вы нарушите какое-либо из вышеперечисленных условий, ваша лицензия на доступ и использование Корпуса обзоров будет автоматически прекращена без ущерба для каких-либо других прав или средств правовой защиты, которые может иметь Amazon.

  • Версия : 1.0.0
  • Расколы :
Расколоть Примеры
'test' 30000
'train' 1200000
'validation' 30000
  • Функции :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

де

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/de')
  • Описание :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • Лицензия : получая доступ к многоязычному корпусу обзоров Amazon («Корпус обзоров»), вы соглашаетесь с тем, что корпус обзоров является сервисом Amazon, на который распространяются Условия использования Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ), и вы соглашаетесь соблюдать их со следующими дополнительными условиями:

В дополнение к лицензионным правам, предоставленным в соответствии с Условиями использования, Amazon или ее поставщики контента предоставляют вам ограниченную, неисключительную, непередаваемую, не подлежащую сублицензированию и отзывную лицензию на доступ и использование Корпуса обзоров в целях научных исследований. Вы не имеете права перепродавать, переиздавать или использовать в коммерческих целях Корпус обзоров или его содержимое, включая использование Корпуса обзоров для коммерческих исследований, таких как исследования, связанные с контрактом на финансирование или консультирование, стажировкой или другими отношениями, в которых результаты предоставляются за определенную плату или доставляются в коммерческую организацию. Вы не имеете права (а) связывать или ассоциировать контент Корпуса обзоров с какой-либо личной информацией (включая учетные записи клиентов Amazon) или (б) пытаться определить личность автора любого контента Корпуса обзоров. Если вы нарушите какое-либо из вышеперечисленных условий, ваша лицензия на доступ и использование Корпуса обзоров будет автоматически прекращена без ущерба для каких-либо других прав или средств правовой защиты, которые может иметь Amazon.

  • Версия : 1.0.0
  • Расколы :
Расколоть Примеры
'test' 5000
'train' 200000
'validation' 5000
  • Функции :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

ru

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/en')
  • Описание :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • Лицензия : получая доступ к многоязычному корпусу обзоров Amazon («Корпус обзоров»), вы соглашаетесь с тем, что корпус обзоров является сервисом Amazon, на который распространяются Условия использования Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ), и вы соглашаетесь соблюдать их со следующими дополнительными условиями:

В дополнение к лицензионным правам, предоставленным в соответствии с Условиями использования, Amazon или ее поставщики контента предоставляют вам ограниченную, неисключительную, непередаваемую, не подлежащую сублицензированию и отзывную лицензию на доступ и использование Корпуса обзоров в целях научных исследований. Вы не имеете права перепродавать, переиздавать или использовать в коммерческих целях Корпус обзоров или его содержимое, включая использование Корпуса обзоров для коммерческих исследований, таких как исследования, связанные с контрактом на финансирование или консультирование, стажировкой или другими отношениями, в которых результаты предоставляются за определенную плату или доставляются в коммерческую организацию. Вы не имеете права (а) связывать или ассоциировать контент Корпуса обзоров с какой-либо личной информацией (включая учетные записи клиентов Amazon) или (б) пытаться определить личность автора любого контента Корпуса обзоров. Если вы нарушите какое-либо из вышеперечисленных условий, ваша лицензия на доступ и использование Корпуса обзоров будет автоматически прекращена без ущерба для каких-либо других прав или средств правовой защиты, которые может иметь Amazon.

  • Версия : 1.0.0
  • Расколы :
Расколоть Примеры
'test' 5000
'train' 200000
'validation' 5000
  • Функции :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

эс

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/es')
  • Описание :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • Лицензия : получая доступ к многоязычному корпусу обзоров Amazon («Корпус обзоров»), вы соглашаетесь с тем, что корпус обзоров является сервисом Amazon, на который распространяются Условия использования Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ), и вы соглашаетесь соблюдать их со следующими дополнительными условиями:

В дополнение к лицензионным правам, предоставленным в соответствии с Условиями использования, Amazon или ее поставщики контента предоставляют вам ограниченную, неисключительную, непередаваемую, не подлежащую сублицензированию и отзывную лицензию на доступ и использование Корпуса обзоров в целях научных исследований. Вы не имеете права перепродавать, переиздавать или использовать Корпус обзоров или его содержимое в коммерческих целях, включая использование Корпуса обзоров для коммерческих исследований, таких как исследования, связанные с контрактом на финансирование или консультирование, стажировкой или другими отношениями, в которых результаты предоставляются за определенную плату или доставляются в коммерческую организацию. Вы не имеете права (а) связывать или ассоциировать контент Корпуса обзоров с какой-либо личной информацией (включая учетные записи клиентов Amazon) или (б) пытаться определить личность автора любого контента Корпуса обзоров. Если вы нарушите какое-либо из вышеперечисленных условий, ваша лицензия на доступ и использование Корпуса обзоров будет автоматически прекращена без ущерба для каких-либо других прав или средств правовой защиты, которые может иметь Amazon.

  • Версия : 1.0.0
  • Расколы :
Расколоть Примеры
'test' 5000
'train' 200000
'validation' 5000
  • Функции :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

фр.

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/fr')
  • Описание :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • Лицензия : получая доступ к многоязычному корпусу обзоров Amazon («Корпус обзоров»), вы соглашаетесь с тем, что корпус обзоров является сервисом Amazon, на который распространяются Условия использования Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ), и вы соглашаетесь соблюдать их со следующими дополнительными условиями:

В дополнение к лицензионным правам, предоставленным в соответствии с Условиями использования, Amazon или ее поставщики контента предоставляют вам ограниченную, неисключительную, непередаваемую, не подлежащую сублицензированию и отзывную лицензию на доступ и использование Корпуса обзоров в целях научных исследований. Вы не имеете права перепродавать, переиздавать или использовать в коммерческих целях Корпус обзоров или его содержимое, включая использование Корпуса обзоров для коммерческих исследований, таких как исследования, связанные с контрактом на финансирование или консультирование, стажировкой или другими отношениями, в которых результаты предоставляются за определенную плату или доставляются в коммерческую организацию. Вы не имеете права (а) связывать или ассоциировать контент Корпуса обзоров с какой-либо личной информацией (включая учетные записи клиентов Amazon) или (б) пытаться определить личность автора любого контента Корпуса обзоров. Если вы нарушите какое-либо из вышеперечисленных условий, ваша лицензия на доступ и использование Корпуса обзоров будет автоматически прекращена без ущерба для каких-либо других прав или средств правовой защиты, которые может иметь Amazon.

  • Версия : 1.0.0
  • Расколы :
Расколоть Примеры
'test' 5000
'train' 200000
'validation' 5000
  • Функции :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

да

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/ja')
  • Описание :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • Лицензия : получая доступ к многоязычному корпусу обзоров Amazon («Корпус обзоров»), вы соглашаетесь с тем, что корпус обзоров является сервисом Amazon, на который распространяются Условия использования Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ), и вы соглашаетесь соблюдать их со следующими дополнительными условиями:

В дополнение к лицензионным правам, предоставленным в соответствии с Условиями использования, Amazon или ее поставщики контента предоставляют вам ограниченную, неисключительную, непередаваемую, не подлежащую сублицензированию и отзывную лицензию на доступ и использование Корпуса обзоров в целях научных исследований. Вы не имеете права перепродавать, переиздавать или использовать Корпус обзоров или его содержимое в коммерческих целях, включая использование Корпуса обзоров для коммерческих исследований, таких как исследования, связанные с контрактом на финансирование или консультирование, стажировкой или другими отношениями, в которых результаты предоставляются за определенную плату или доставляются в коммерческую организацию. Вы не имеете права (а) связывать или ассоциировать контент Корпуса обзоров с какой-либо личной информацией (включая учетные записи клиентов Amazon) или (б) пытаться определить личность автора любого контента Корпуса обзоров. Если вы нарушите какое-либо из вышеперечисленных условий, ваша лицензия на доступ и использование Корпуса обзоров будет автоматически прекращена без ущерба для каких-либо других прав или средств правовой защиты, которые может иметь Amazon.

  • Версия : 1.0.0
  • Расколы :
Расколоть Примеры
'test' 5000
'train' 200000
'validation' 5000
  • Функции :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

ж

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/zh')
  • Описание :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • Лицензия : получая доступ к многоязычному корпусу обзоров Amazon («Корпус обзоров»), вы соглашаетесь с тем, что корпус обзоров является сервисом Amazon, на который распространяются Условия использования Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ), и вы соглашаетесь соблюдать их со следующими дополнительными условиями:

В дополнение к лицензионным правам, предоставленным в соответствии с Условиями использования, Amazon или ее поставщики контента предоставляют вам ограниченную, неисключительную, непередаваемую, не подлежащую сублицензированию и отзывную лицензию на доступ и использование Корпуса обзоров в целях научных исследований. Вы не имеете права перепродавать, переиздавать или использовать Корпус обзоров или его содержимое в коммерческих целях, включая использование Корпуса обзоров для коммерческих исследований, таких как исследования, связанные с контрактом на финансирование или консультирование, стажировкой или другими отношениями, в которых результаты предоставляются за определенную плату или доставляются в коммерческую организацию. Вы не имеете права (а) связывать или ассоциировать контент Корпуса обзоров с какой-либо личной информацией (включая учетные записи клиентов Amazon) или (б) пытаться определить личность автора любого контента Корпуса обзоров. Если вы нарушите какое-либо из вышеперечисленных условий, ваша лицензия на доступ и использование Корпуса обзоров будет автоматически прекращена без ущерба для каких-либо других прав или средств правовой защиты, которые может иметь Amazon.

  • Версия : 1.0.0
  • Расколы :
Расколоть Примеры
'test' 5000
'train' 200000
'validation' 5000
  • Функции :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}