amazon_reviews_multi

مراجع:

all_languages

برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:

ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
  • توضیحات :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • مجوز : با دسترسی به مجموعه چند زبانه نظرات آمازون ("مجموعه بررسی ها")، موافقت می کنید که مجموعه نظرات یک سرویس آمازون است که تابع شرایط استفاده از Amazon.com است ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) و شما موافقت می کنید که به آنها متعهد شوید، با شرایط اضافی زیر:

علاوه بر حقوق مجوز اعطا شده تحت شرایط استفاده، آمازون یا ارائه دهندگان محتوای آن مجوز محدود، غیر انحصاری، غیرقابل انتقال، غیرقابل صدور مجوز فرعی و قابل لغو را برای دسترسی و استفاده از Corpus برای اهداف تحقیقات دانشگاهی به شما می دهند. شما مجاز به فروش مجدد، انتشار مجدد، یا استفاده تجاری از مجموعه نظرات یا محتویات آن، از جمله استفاده از مجموعه نظرات برای تحقیقات تجاری، مانند تحقیقات مربوط به یک قرارداد سرمایه گذاری یا مشاوره، کارآموزی، یا سایر روابطی که نتایج آن با پرداخت هزینه ارائه می شوند یا به یک سازمان انتفاعی تحویل می شوند. شما نمی‌توانید (الف) محتوای موجود در مجموعه نظرات را با اطلاعات شخصی (از جمله حساب‌های مشتریان آمازون) مرتبط یا مرتبط کنید، یا (ب) سعی کنید هویت نویسنده هر محتوایی در مجموعه نظرات را تعیین کنید. اگر هر یک از شرایط فوق را نقض کنید، مجوز شما برای دسترسی و استفاده از نظرات Corpus به طور خودکار بدون لطمه به هر یک از حقوق یا راه حل های دیگری که آمازون ممکن است داشته باشد، فسخ می شود.

  • نسخه : 1.0.0
  • تقسیم ها :
تقسیم کنید نمونه ها
'test' 30000
'train' 1200000
'validation' 30000
  • ویژگی ها :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

de

برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:

ds = tfds.load('huggingface:amazon_reviews_multi/de')
  • توضیحات :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • مجوز : با دسترسی به مجموعه چند زبانه نظرات آمازون ("مجموعه بررسی ها")، موافقت می کنید که مجموعه نظرات یک سرویس آمازون است که تابع شرایط استفاده از Amazon.com است ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) و شما موافقت می کنید که به آنها متعهد شوید، با شرایط اضافی زیر:

علاوه بر حقوق مجوز اعطا شده تحت شرایط استفاده، آمازون یا ارائه دهندگان محتوای آن مجوز محدود، غیر انحصاری، غیرقابل انتقال، غیرقابل صدور مجوز فرعی و قابل لغو را برای دسترسی و استفاده از Corpus برای اهداف تحقیقات دانشگاهی به شما می دهند. شما مجاز به فروش مجدد، انتشار مجدد، یا استفاده تجاری از مجموعه نظرات یا محتویات آن، از جمله استفاده از مجموعه نظرات برای تحقیقات تجاری، مانند تحقیقات مربوط به یک قرارداد سرمایه گذاری یا مشاوره، کارآموزی، یا سایر روابطی که نتایج آن با پرداخت هزینه ارائه می شوند یا به یک سازمان انتفاعی تحویل می شوند. شما نمی‌توانید (الف) محتوای موجود در مجموعه نظرات را با اطلاعات شخصی (از جمله حساب‌های مشتریان آمازون) مرتبط یا مرتبط کنید، یا (ب) سعی کنید هویت نویسنده هر محتوایی در مجموعه نظرات را تعیین کنید. اگر هر یک از شرایط فوق را نقض کنید، مجوز شما برای دسترسی و استفاده از نظرات Corpus به طور خودکار بدون لطمه به هر یک از حقوق یا راه حل های دیگری که آمازون ممکن است داشته باشد، فسخ می شود.

  • نسخه : 1.0.0
  • تقسیم ها :
تقسیم کنید نمونه ها
'test' 5000
'train' 200000
'validation' 5000
  • ویژگی ها :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

en

برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:

ds = tfds.load('huggingface:amazon_reviews_multi/en')
  • توضیحات :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • مجوز : با دسترسی به مجموعه چند زبانه نظرات آمازون ("مجموعه بررسی ها")، موافقت می کنید که مجموعه نظرات یک سرویس آمازون است که تابع شرایط استفاده از Amazon.com است ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) و شما موافقت می کنید که به آنها متعهد شوید، با شرایط اضافی زیر:

علاوه بر حقوق مجوز اعطا شده تحت شرایط استفاده، آمازون یا ارائه دهندگان محتوای آن مجوز محدود، غیر انحصاری، غیرقابل انتقال، غیرقابل صدور مجوز فرعی و قابل لغو را برای دسترسی و استفاده از Corpus برای اهداف تحقیقات دانشگاهی به شما می دهند. شما مجاز به فروش مجدد، انتشار مجدد، یا استفاده تجاری از مجموعه نظرات یا محتویات آن، از جمله استفاده از مجموعه نظرات برای تحقیقات تجاری، مانند تحقیقات مربوط به یک قرارداد سرمایه گذاری یا مشاوره، کارآموزی، یا سایر روابطی که نتایج آن با پرداخت هزینه ارائه می شوند یا به یک سازمان انتفاعی تحویل می شوند. شما نمی‌توانید (الف) محتوای موجود در مجموعه نظرات را با اطلاعات شخصی (از جمله حساب‌های مشتریان آمازون) مرتبط یا مرتبط کنید، یا (ب) سعی کنید هویت نویسنده هر محتوایی در مجموعه نظرات را تعیین کنید. اگر هر یک از شرایط فوق را نقض کنید، مجوز شما برای دسترسی و استفاده از نظرات Corpus به طور خودکار بدون لطمه به هر یک از حقوق یا راه حل های دیگری که آمازون ممکن است داشته باشد، فسخ می شود.

  • نسخه : 1.0.0
  • تقسیم ها :
تقسیم کنید نمونه ها
'test' 5000
'train' 200000
'validation' 5000
  • ویژگی ها :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

es

برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:

ds = tfds.load('huggingface:amazon_reviews_multi/es')
  • توضیحات :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • مجوز : با دسترسی به مجموعه چند زبانه نظرات آمازون ("مجموعه بررسی ها")، موافقت می کنید که مجموعه نظرات یک سرویس آمازون است که تابع شرایط استفاده از Amazon.com است ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) و شما موافقت می کنید که به آنها متعهد شوید، با شرایط اضافی زیر:

علاوه بر حقوق مجوز اعطا شده تحت شرایط استفاده، آمازون یا ارائه دهندگان محتوای آن مجوز محدود، غیر انحصاری، غیرقابل انتقال، غیرقابل صدور مجوز فرعی و قابل لغو را برای دسترسی و استفاده از Corpus برای اهداف تحقیقات دانشگاهی به شما می دهند. شما مجاز به فروش مجدد، انتشار مجدد، یا استفاده تجاری از مجموعه نظرات یا محتویات آن، از جمله استفاده از مجموعه نظرات برای تحقیقات تجاری، مانند تحقیقات مربوط به یک قرارداد سرمایه گذاری یا مشاوره، کارآموزی، یا سایر روابطی که نتایج آن با پرداخت هزینه ارائه می شوند یا به یک سازمان انتفاعی تحویل می شوند. شما نمی‌توانید (الف) محتوای موجود در مجموعه نظرات را با اطلاعات شخصی (از جمله حساب‌های مشتریان آمازون) مرتبط یا مرتبط کنید، یا (ب) سعی کنید هویت نویسنده هر محتوایی در مجموعه نظرات را تعیین کنید. اگر هر یک از شرایط فوق را نقض کنید، مجوز شما برای دسترسی و استفاده از نظرات Corpus به طور خودکار بدون لطمه به هر یک از حقوق یا راه حل های دیگری که آمازون ممکن است داشته باشد، فسخ می شود.

  • نسخه : 1.0.0
  • تقسیم ها :
تقسیم کنید نمونه ها
'test' 5000
'train' 200000
'validation' 5000
  • ویژگی ها :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

fr

برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:

ds = tfds.load('huggingface:amazon_reviews_multi/fr')
  • توضیحات :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • مجوز : با دسترسی به مجموعه چند زبانه نظرات آمازون ("مجموعه بررسی ها")، موافقت می کنید که مجموعه نظرات یک سرویس آمازون است که تابع شرایط استفاده از Amazon.com است ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) و شما موافقت می کنید که به آنها متعهد شوید، با شرایط اضافی زیر:

علاوه بر حقوق مجوز اعطا شده تحت شرایط استفاده، آمازون یا ارائه دهندگان محتوای آن مجوز محدود، غیر انحصاری، غیرقابل انتقال، غیرقابل صدور مجوز فرعی و قابل لغو را برای دسترسی و استفاده از Corpus برای اهداف تحقیقات دانشگاهی به شما می دهند. شما مجاز به فروش مجدد، انتشار مجدد، یا استفاده تجاری از مجموعه نظرات یا محتویات آن، از جمله استفاده از مجموعه نظرات برای تحقیقات تجاری، مانند تحقیقات مربوط به یک قرارداد سرمایه گذاری یا مشاوره، کارآموزی، یا سایر روابطی که نتایج آن با پرداخت هزینه ارائه می شوند یا به یک سازمان انتفاعی تحویل می شوند. شما نمی‌توانید (الف) محتوای موجود در مجموعه نظرات را با اطلاعات شخصی (از جمله حساب‌های مشتریان آمازون) مرتبط یا مرتبط کنید، یا (ب) سعی کنید هویت نویسنده هر محتوایی در مجموعه نظرات را تعیین کنید. اگر هر یک از شرایط فوق را نقض کنید، مجوز شما برای دسترسی و استفاده از نظرات Corpus به طور خودکار بدون لطمه به هر یک از حقوق یا راه حل های دیگری که آمازون ممکن است داشته باشد، فسخ می شود.

  • نسخه : 1.0.0
  • تقسیم ها :
تقسیم کنید نمونه ها
'test' 5000
'train' 200000
'validation' 5000
  • ویژگی ها :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

ja

برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:

ds = tfds.load('huggingface:amazon_reviews_multi/ja')
  • توضیحات :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • مجوز : با دسترسی به مجموعه چند زبانه نظرات آمازون ("مجموعه بررسی ها")، موافقت می کنید که مجموعه نظرات یک سرویس آمازون است که تابع شرایط استفاده از Amazon.com است ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) و شما موافقت می کنید که به آنها متعهد شوید، با شرایط اضافی زیر:

علاوه بر حقوق مجوز اعطا شده تحت شرایط استفاده، آمازون یا ارائه دهندگان محتوای آن مجوز محدود، غیر انحصاری، غیرقابل انتقال، غیرقابل صدور مجوز فرعی و قابل لغو را برای دسترسی و استفاده از Corpus برای اهداف تحقیقات دانشگاهی به شما می دهند. شما مجاز به فروش مجدد، انتشار مجدد، یا استفاده تجاری از مجموعه نظرات یا محتویات آن، از جمله استفاده از مجموعه نظرات برای تحقیقات تجاری، مانند تحقیقات مربوط به یک قرارداد سرمایه گذاری یا مشاوره، کارآموزی، یا سایر روابطی که نتایج آن با پرداخت هزینه ارائه می شوند یا به یک سازمان انتفاعی تحویل می شوند. شما نمی‌توانید (الف) محتوای موجود در مجموعه نظرات را با اطلاعات شخصی (از جمله حساب‌های مشتریان آمازون) مرتبط یا مرتبط کنید، یا (ب) سعی کنید هویت نویسنده هر محتوایی در مجموعه نظرات را تعیین کنید. اگر هر یک از شرایط فوق را نقض کنید، مجوز شما برای دسترسی و استفاده از نظرات Corpus به طور خودکار بدون لطمه به هر یک از حقوق یا راه حل های دیگری که آمازون ممکن است داشته باشد، فسخ می شود.

  • نسخه : 1.0.0
  • تقسیمات :
تقسیم کنید نمونه ها
'test' 5000
'train' 200000
'validation' 5000
  • ویژگی ها :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

zh

برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:

ds = tfds.load('huggingface:amazon_reviews_multi/zh')
  • توضیحات :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • مجوز : با دسترسی به مجموعه چند زبانه نظرات آمازون ("مجموعه بررسی ها")، موافقت می کنید که مجموعه نظرات یک سرویس آمازون است که تابع شرایط استفاده از Amazon.com است ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) و شما موافقت می کنید که به آنها متعهد شوید، با شرایط اضافی زیر:

علاوه بر حقوق مجوز اعطا شده تحت شرایط استفاده، آمازون یا ارائه دهندگان محتوای آن مجوز محدود، غیر انحصاری، غیرقابل انتقال، غیرقابل صدور مجوز فرعی و قابل لغو را برای دسترسی و استفاده از Corpus برای اهداف تحقیقات دانشگاهی به شما می دهند. شما مجاز به فروش مجدد، انتشار مجدد، یا استفاده تجاری از مجموعه نظرات یا محتویات آن، از جمله استفاده از مجموعه نظرات برای تحقیقات تجاری، مانند تحقیقات مربوط به یک قرارداد سرمایه گذاری یا مشاوره، کارآموزی، یا سایر روابطی که نتایج آن با پرداخت هزینه ارائه می شوند یا به یک سازمان انتفاعی تحویل می شوند. شما نمی‌توانید (الف) محتوای موجود در مجموعه نظرات را با اطلاعات شخصی (از جمله حساب‌های مشتریان آمازون) مرتبط یا مرتبط کنید، یا (ب) سعی کنید هویت نویسنده هر محتوایی در مجموعه نظرات را تعیین کنید. اگر هر یک از شرایط فوق را نقض کنید، مجوز شما برای دسترسی و استفاده از نظرات Corpus به طور خودکار بدون لطمه به هر یک از حقوق یا راه حل های دیگری که آمازون ممکن است داشته باشد، فسخ می شود.

  • نسخه : 1.0.0
  • تقسیمات :
تقسیم کنید نمونه ها
'test' 5000
'train' 200000
'validation' 5000
  • ویژگی ها :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}