Người giới thiệu:
tất cả các ngôn ngữ
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
- Mô tả :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Giấy phép : Bằng cách truy cập Amazon Reviews Corpus đa ngôn ngữ ("Reviews Corpus"), bạn đồng ý rằng Reviews Corpus là một Dịch vụ của Amazon tuân theo Điều kiện sử dụng của Amazon.com ( https://www.amazon.com/gp/help/ customer / display.html / ref = footer_cou? ie = UTF8 & nodeId = 508088 ) và bạn đồng ý bị ràng buộc bởi họ, với các điều kiện bổ sung sau:
Ngoài các quyền cấp phép được cấp theo Điều kiện sử dụng, Amazon hoặc các nhà cung cấp nội dung của Amazon cấp cho bạn giấy phép có giới hạn, không độc quyền, không thể chuyển nhượng, không thể cấp phép lại, có thể thu hồi để truy cập và sử dụng Tổng quan đánh giá cho mục đích nghiên cứu học thuật. Bạn không được bán lại, xuất bản lại hoặc sử dụng bất kỳ mục đích thương mại nào đối với Công ty đánh giá hoặc nội dung của nó, bao gồm cả việc sử dụng Công ty đánh giá cho nghiên cứu thương mại, chẳng hạn như nghiên cứu liên quan đến hợp đồng tài trợ hoặc tư vấn, thực tập hoặc các mối quan hệ khác mà kết quả được cung cấp với một khoản phí hoặc giao cho một tổ chức vì lợi nhuận. Bạn không được (a) liên kết hoặc liên kết nội dung trong Tổng quan đánh giá với bất kỳ thông tin cá nhân nào (bao gồm tài khoản khách hàng Amazon), hoặc (b) cố gắng xác định danh tính của tác giả của bất kỳ nội dung nào trong Tập đoàn đánh giá. Nếu bạn vi phạm bất kỳ điều kiện nào ở trên, giấy phép của bạn để truy cập và sử dụng Reviews Corpus sẽ tự động chấm dứt mà không ảnh hưởng đến bất kỳ quyền hoặc biện pháp khắc phục nào khác mà Amazon có thể có.
- Phiên bản : 1.0.0
- Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 30000 |
'train' | 1200000 |
'validation' | 30000 |
- Các tính năng :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
de
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:amazon_reviews_multi/de')
- Mô tả :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Giấy phép : Bằng cách truy cập Amazon Reviews Corpus đa ngôn ngữ ("Reviews Corpus"), bạn đồng ý rằng Reviews Corpus là một Dịch vụ của Amazon tuân theo Điều kiện sử dụng của Amazon.com ( https://www.amazon.com/gp/help/ customer / display.html / ref = footer_cou? ie = UTF8 & nodeId = 508088 ) và bạn đồng ý bị ràng buộc bởi họ, với các điều kiện bổ sung sau:
Ngoài các quyền cấp phép được cấp theo Điều kiện sử dụng, Amazon hoặc các nhà cung cấp nội dung của Amazon cấp cho bạn giấy phép có giới hạn, không độc quyền, không thể chuyển nhượng, không thể cấp phép lại, có thể thu hồi để truy cập và sử dụng Tổng quan đánh giá cho mục đích nghiên cứu học thuật. Bạn không được bán lại, xuất bản lại hoặc sử dụng bất kỳ mục đích thương mại nào đối với Công ty đánh giá hoặc nội dung của nó, bao gồm cả việc sử dụng Công ty đánh giá cho nghiên cứu thương mại, chẳng hạn như nghiên cứu liên quan đến hợp đồng tài trợ hoặc tư vấn, thực tập hoặc các mối quan hệ khác mà kết quả được cung cấp với một khoản phí hoặc giao cho một tổ chức vì lợi nhuận. Bạn không được (a) liên kết hoặc liên kết nội dung trong Tổng quan đánh giá với bất kỳ thông tin cá nhân nào (bao gồm tài khoản khách hàng Amazon), hoặc (b) cố gắng xác định danh tính của tác giả của bất kỳ nội dung nào trong Tập đoàn đánh giá. Nếu bạn vi phạm bất kỳ điều kiện nào ở trên, giấy phép của bạn để truy cập và sử dụng Reviews Corpus sẽ tự động chấm dứt mà không ảnh hưởng đến bất kỳ quyền hoặc biện pháp khắc phục nào khác mà Amazon có thể có.
- Phiên bản : 1.0.0
- Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 5000 |
'train' | 200000 |
'validation' | 5000 |
- Các tính năng :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
en
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:amazon_reviews_multi/en')
- Mô tả :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Giấy phép : Bằng cách truy cập Amazon Reviews Corpus đa ngôn ngữ ("Reviews Corpus"), bạn đồng ý rằng Reviews Corpus là một Dịch vụ của Amazon tuân theo Điều kiện sử dụng của Amazon.com ( https://www.amazon.com/gp/help/ customer / display.html / ref = footer_cou? ie = UTF8 & nodeId = 508088 ) và bạn đồng ý bị ràng buộc bởi họ, với các điều kiện bổ sung sau:
Ngoài các quyền cấp phép được cấp theo Điều kiện sử dụng, Amazon hoặc các nhà cung cấp nội dung của Amazon cấp cho bạn giấy phép có giới hạn, không độc quyền, không thể chuyển nhượng, không thể cấp phép lại, có thể thu hồi để truy cập và sử dụng Tổng quan đánh giá cho mục đích nghiên cứu học thuật. Bạn không được bán lại, xuất bản lại hoặc sử dụng bất kỳ mục đích thương mại nào đối với Công ty đánh giá hoặc nội dung của nó, bao gồm cả việc sử dụng Công ty đánh giá cho nghiên cứu thương mại, chẳng hạn như nghiên cứu liên quan đến hợp đồng tài trợ hoặc tư vấn, thực tập hoặc các mối quan hệ khác mà kết quả được cung cấp với một khoản phí hoặc giao cho một tổ chức vì lợi nhuận. Bạn không được (a) liên kết hoặc liên kết nội dung trong Tổng quan đánh giá với bất kỳ thông tin cá nhân nào (bao gồm tài khoản khách hàng Amazon), hoặc (b) cố gắng xác định danh tính của tác giả của bất kỳ nội dung nào trong Tập đoàn đánh giá. Nếu bạn vi phạm bất kỳ điều kiện nào ở trên, giấy phép của bạn để truy cập và sử dụng Reviews Corpus sẽ tự động chấm dứt mà không ảnh hưởng đến bất kỳ quyền hoặc biện pháp khắc phục nào khác mà Amazon có thể có.
- Phiên bản : 1.0.0
- Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 5000 |
'train' | 200000 |
'validation' | 5000 |
- Các tính năng :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
es
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:amazon_reviews_multi/es')
- Mô tả :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Giấy phép : Bằng cách truy cập Amazon Reviews Corpus đa ngôn ngữ ("Reviews Corpus"), bạn đồng ý rằng Reviews Corpus là một Dịch vụ của Amazon tuân theo Điều kiện sử dụng của Amazon.com ( https://www.amazon.com/gp/help/ customer / display.html / ref = footer_cou? ie = UTF8 & nodeId = 508088 ) và bạn đồng ý bị ràng buộc bởi họ, với các điều kiện bổ sung sau:
Ngoài các quyền cấp phép được cấp theo Điều kiện sử dụng, Amazon hoặc các nhà cung cấp nội dung của Amazon cấp cho bạn giấy phép có giới hạn, không độc quyền, không thể chuyển nhượng, không thể cấp phép lại, có thể thu hồi để truy cập và sử dụng Tổng quan đánh giá cho mục đích nghiên cứu học thuật. Bạn không được bán lại, xuất bản lại hoặc sử dụng bất kỳ mục đích thương mại nào đối với Công ty đánh giá hoặc nội dung của nó, bao gồm cả việc sử dụng Công ty đánh giá cho nghiên cứu thương mại, chẳng hạn như nghiên cứu liên quan đến hợp đồng tài trợ hoặc tư vấn, thực tập hoặc các mối quan hệ khác mà kết quả được cung cấp với một khoản phí hoặc giao cho một tổ chức vì lợi nhuận. Bạn không được (a) liên kết hoặc liên kết nội dung trong Tổng quan đánh giá với bất kỳ thông tin cá nhân nào (bao gồm tài khoản khách hàng Amazon), hoặc (b) cố gắng xác định danh tính của tác giả của bất kỳ nội dung nào trong Tập đoàn đánh giá. Nếu bạn vi phạm bất kỳ điều kiện nào ở trên, giấy phép của bạn để truy cập và sử dụng Reviews Corpus sẽ tự động chấm dứt mà không ảnh hưởng đến bất kỳ quyền hoặc biện pháp khắc phục nào khác mà Amazon có thể có.
- Phiên bản : 1.0.0
- Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 5000 |
'train' | 200000 |
'validation' | 5000 |
- Các tính năng :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
fr
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:amazon_reviews_multi/fr')
- Mô tả :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Giấy phép : Bằng cách truy cập Amazon Reviews Corpus đa ngôn ngữ ("Reviews Corpus"), bạn đồng ý rằng Reviews Corpus là một Dịch vụ của Amazon tuân theo Điều kiện sử dụng của Amazon.com ( https://www.amazon.com/gp/help/ customer / display.html / ref = footer_cou? ie = UTF8 & nodeId = 508088 ) và bạn đồng ý bị ràng buộc bởi họ, với các điều kiện bổ sung sau:
Ngoài các quyền cấp phép được cấp theo Điều kiện sử dụng, Amazon hoặc các nhà cung cấp nội dung của Amazon cấp cho bạn giấy phép có giới hạn, không độc quyền, không thể chuyển nhượng, không thể cấp phép lại, có thể thu hồi để truy cập và sử dụng Tổng quan đánh giá cho mục đích nghiên cứu học thuật. Bạn không được bán lại, xuất bản lại hoặc sử dụng bất kỳ mục đích thương mại nào đối với Công ty đánh giá hoặc nội dung của nó, bao gồm cả việc sử dụng Công ty đánh giá cho nghiên cứu thương mại, chẳng hạn như nghiên cứu liên quan đến hợp đồng tài trợ hoặc tư vấn, thực tập hoặc các mối quan hệ khác mà kết quả được cung cấp với một khoản phí hoặc giao cho một tổ chức vì lợi nhuận. Bạn không được (a) liên kết hoặc liên kết nội dung trong Tổng quan đánh giá với bất kỳ thông tin cá nhân nào (bao gồm tài khoản khách hàng Amazon), hoặc (b) cố gắng xác định danh tính của tác giả của bất kỳ nội dung nào trong Tập đoàn đánh giá. Nếu bạn vi phạm bất kỳ điều kiện nào ở trên, giấy phép của bạn để truy cập và sử dụng Reviews Corpus sẽ tự động chấm dứt mà không ảnh hưởng đến bất kỳ quyền hoặc biện pháp khắc phục nào khác mà Amazon có thể có.
- Phiên bản : 1.0.0
- Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 5000 |
'train' | 200000 |
'validation' | 5000 |
- Các tính năng :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
ja
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:amazon_reviews_multi/ja')
- Mô tả :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Giấy phép : Bằng cách truy cập Amazon Reviews Corpus đa ngôn ngữ ("Reviews Corpus"), bạn đồng ý rằng Reviews Corpus là một Dịch vụ của Amazon tuân theo Điều kiện sử dụng của Amazon.com ( https://www.amazon.com/gp/help/ customer / display.html / ref = footer_cou? ie = UTF8 & nodeId = 508088 ) và bạn đồng ý bị ràng buộc bởi họ, với các điều kiện bổ sung sau:
Ngoài các quyền cấp phép được cấp theo Điều kiện sử dụng, Amazon hoặc các nhà cung cấp nội dung của Amazon cấp cho bạn giấy phép có giới hạn, không độc quyền, không thể chuyển nhượng, không thể cấp phép lại, có thể thu hồi để truy cập và sử dụng Tổng quan đánh giá cho mục đích nghiên cứu học thuật. Bạn không được bán lại, xuất bản lại hoặc sử dụng bất kỳ mục đích thương mại nào đối với Công ty đánh giá hoặc nội dung của nó, bao gồm cả việc sử dụng Công ty đánh giá cho nghiên cứu thương mại, chẳng hạn như nghiên cứu liên quan đến hợp đồng tài trợ hoặc tư vấn, thực tập hoặc các mối quan hệ khác mà kết quả được cung cấp với một khoản phí hoặc giao cho một tổ chức vì lợi nhuận. Bạn không được (a) liên kết hoặc liên kết nội dung trong Tổng quan đánh giá với bất kỳ thông tin cá nhân nào (bao gồm tài khoản khách hàng Amazon), hoặc (b) cố gắng xác định danh tính của tác giả của bất kỳ nội dung nào trong Tập đoàn đánh giá. Nếu bạn vi phạm bất kỳ điều kiện nào ở trên, giấy phép của bạn để truy cập và sử dụng Reviews Corpus sẽ tự động chấm dứt mà không ảnh hưởng đến bất kỳ quyền hoặc biện pháp khắc phục nào khác mà Amazon có thể có.
- Phiên bản : 1.0.0
- Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 5000 |
'train' | 200000 |
'validation' | 5000 |
- Các tính năng :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:amazon_reviews_multi/zh')
- Mô tả :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Giấy phép : Bằng cách truy cập Amazon Reviews Corpus đa ngôn ngữ ("Reviews Corpus"), bạn đồng ý rằng Reviews Corpus là một Dịch vụ của Amazon tuân theo Điều kiện sử dụng của Amazon.com ( https://www.amazon.com/gp/help/ customer / display.html / ref = footer_cou? ie = UTF8 & nodeId = 508088 ) và bạn đồng ý bị ràng buộc bởi họ, với các điều kiện bổ sung sau:
Ngoài các quyền cấp phép được cấp theo Điều kiện sử dụng, Amazon hoặc các nhà cung cấp nội dung của Amazon cấp cho bạn giấy phép có giới hạn, không độc quyền, không thể chuyển nhượng, không thể cấp phép lại, có thể thu hồi để truy cập và sử dụng Tổng quan đánh giá cho mục đích nghiên cứu học thuật. Bạn không được bán lại, xuất bản lại hoặc sử dụng bất kỳ mục đích thương mại nào đối với Công ty đánh giá hoặc nội dung của nó, bao gồm cả việc sử dụng Công ty đánh giá cho nghiên cứu thương mại, chẳng hạn như nghiên cứu liên quan đến hợp đồng tài trợ hoặc tư vấn, thực tập hoặc các mối quan hệ khác mà kết quả được cung cấp với một khoản phí hoặc giao cho một tổ chức vì lợi nhuận. Bạn không được (a) liên kết hoặc liên kết nội dung trong Tổng quan đánh giá với bất kỳ thông tin cá nhân nào (bao gồm tài khoản khách hàng Amazon), hoặc (b) cố gắng xác định danh tính của tác giả của bất kỳ nội dung nào trong Tập đoàn đánh giá. Nếu bạn vi phạm bất kỳ điều kiện nào ở trên, giấy phép của bạn để truy cập và sử dụng Reviews Corpus sẽ tự động chấm dứt mà không ảnh hưởng đến bất kỳ quyền hoặc biện pháp khắc phục nào khác mà Amazon có thể có.
- Phiên bản : 1.0.0
- Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 5000 |
'train' | 200000 |
'validation' | 5000 |
- Các tính năng :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}