Références :
toutes_langues
Utilisez la commande suivante pour charger cet ensemble de données dans TFDS :
ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
- Description :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Licence : En accédant au Corpus d'avis multilingues d'Amazon (« Corpus d'avis »), vous acceptez que le Corpus d'avis soit un service Amazon soumis aux Conditions d'utilisation d'Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) et vous acceptez d'être lié par ceux-ci, avec les conditions supplémentaires suivantes :
En plus des droits de licence accordés dans le cadre des Conditions d'utilisation, Amazon ou ses fournisseurs de contenu vous accordent une licence limitée, non exclusive, non transférable, ne pouvant faire l'objet d'une sous-licence et révocable pour accéder et utiliser le Corpus d'avis à des fins de recherche universitaire. Vous ne pouvez pas revendre, republier ou faire une quelconque utilisation commerciale du Corpus d'avis ou de son contenu, y compris l'utilisation du Corpus d'avis à des fins de recherche commerciale, telle que la recherche liée à un contrat de financement ou de conseil, un stage ou toute autre relation dans laquelle les résultats sont fournis moyennant des frais ou livrés à une organisation à but lucratif. Vous ne pouvez pas (a) lier ou associer le contenu du Corpus d'avis à des informations personnelles (y compris les comptes clients Amazon), ou (b) tenter de déterminer l'identité de l'auteur de tout contenu du Corpus d'avis. Si vous violez l'une des conditions ci-dessus, votre licence d'accès et d'utilisation du Corpus d'avis sera automatiquement résiliée, sans préjudice des autres droits ou recours dont Amazon peut disposer.
- Version : 1.0.0
- Divisions :
Diviser | Exemples |
---|---|
'test' | 30000 |
'train' | 1200000 |
'validation' | 30000 |
- Caractéristiques :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
de
Utilisez la commande suivante pour charger cet ensemble de données dans TFDS :
ds = tfds.load('huggingface:amazon_reviews_multi/de')
- Description :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Licence : En accédant au Corpus d'avis multilingues d'Amazon (« Corpus d'avis »), vous acceptez que le Corpus d'avis soit un service Amazon soumis aux Conditions d'utilisation d'Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) et vous acceptez d'être lié par ceux-ci, avec les conditions supplémentaires suivantes :
En plus des droits de licence accordés dans le cadre des Conditions d'utilisation, Amazon ou ses fournisseurs de contenu vous accordent une licence limitée, non exclusive, non transférable, ne pouvant faire l'objet d'une sous-licence et révocable pour accéder et utiliser le Corpus d'avis à des fins de recherche universitaire. Vous ne pouvez pas revendre, republier ou faire une quelconque utilisation commerciale du Corpus d'avis ou de son contenu, y compris l'utilisation du Corpus d'avis à des fins de recherche commerciale, telle que la recherche liée à un contrat de financement ou de conseil, un stage ou toute autre relation dans laquelle les résultats sont fournis moyennant des frais ou livrés à une organisation à but lucratif. Vous ne pouvez pas (a) lier ou associer le contenu du Corpus d'avis à des informations personnelles (y compris les comptes clients Amazon), ou (b) tenter de déterminer l'identité de l'auteur de tout contenu du Corpus d'avis. Si vous violez l'une des conditions ci-dessus, votre licence d'accès et d'utilisation du Corpus d'avis sera automatiquement résiliée, sans préjudice des autres droits ou recours dont Amazon peut disposer.
- Version : 1.0.0
- Divisions :
Diviser | Exemples |
---|---|
'test' | 5000 |
'train' | 200 000 |
'validation' | 5000 |
- Caractéristiques :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
fr
Utilisez la commande suivante pour charger cet ensemble de données dans TFDS :
ds = tfds.load('huggingface:amazon_reviews_multi/en')
- Description :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Licence : En accédant au Corpus d'avis multilingues d'Amazon (« Corpus d'avis »), vous acceptez que le Corpus d'avis soit un service Amazon soumis aux Conditions d'utilisation d'Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) et vous acceptez d'être lié par ceux-ci, avec les conditions supplémentaires suivantes :
En plus des droits de licence accordés dans le cadre des Conditions d'utilisation, Amazon ou ses fournisseurs de contenu vous accordent une licence limitée, non exclusive, non transférable, ne pouvant faire l'objet d'une sous-licence et révocable pour accéder et utiliser le Corpus d'avis à des fins de recherche universitaire. Vous ne pouvez pas revendre, republier ou faire une quelconque utilisation commerciale du Corpus d'avis ou de son contenu, y compris l'utilisation du Corpus d'avis à des fins de recherche commerciale, telle que la recherche liée à un contrat de financement ou de conseil, un stage ou toute autre relation dans laquelle les résultats sont fournis moyennant des frais ou livrés à une organisation à but lucratif. Vous ne pouvez pas (a) lier ou associer le contenu du Corpus d'avis à des informations personnelles (y compris les comptes clients Amazon), ou (b) tenter de déterminer l'identité de l'auteur de tout contenu du Corpus d'avis. Si vous violez l'une des conditions ci-dessus, votre licence d'accès et d'utilisation du Corpus d'avis sera automatiquement résiliée, sans préjudice des autres droits ou recours dont Amazon peut disposer.
- Version : 1.0.0
- Divisions :
Diviser | Exemples |
---|---|
'test' | 5000 |
'train' | 200 000 |
'validation' | 5000 |
- Caractéristiques :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
es
Utilisez la commande suivante pour charger cet ensemble de données dans TFDS :
ds = tfds.load('huggingface:amazon_reviews_multi/es')
- Description :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Licence : En accédant au Corpus d'avis multilingues d'Amazon (« Corpus d'avis »), vous acceptez que le Corpus d'avis soit un service Amazon soumis aux Conditions d'utilisation d'Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) et vous acceptez d'être lié par ceux-ci, avec les conditions supplémentaires suivantes :
En plus des droits de licence accordés dans le cadre des Conditions d'utilisation, Amazon ou ses fournisseurs de contenu vous accordent une licence limitée, non exclusive, non transférable, ne pouvant faire l'objet d'une sous-licence et révocable pour accéder et utiliser le Corpus d'avis à des fins de recherche universitaire. Vous ne pouvez pas revendre, republier ou faire une quelconque utilisation commerciale du Corpus d'avis ou de son contenu, y compris l'utilisation du Corpus d'avis à des fins de recherche commerciale, telle que la recherche liée à un contrat de financement ou de conseil, un stage ou toute autre relation dans laquelle les résultats sont fournis moyennant des frais ou livrés à une organisation à but lucratif. Vous ne pouvez pas (a) lier ou associer le contenu du Corpus d'avis à des informations personnelles (y compris les comptes clients Amazon), ou (b) tenter de déterminer l'identité de l'auteur de tout contenu du Corpus d'avis. Si vous violez l'une des conditions ci-dessus, votre licence d'accès et d'utilisation du Corpus d'avis sera automatiquement résiliée, sans préjudice des autres droits ou recours dont Amazon peut disposer.
- Version : 1.0.0
- Divisions :
Diviser | Exemples |
---|---|
'test' | 5000 |
'train' | 200 000 |
'validation' | 5000 |
- Caractéristiques :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
fr
Utilisez la commande suivante pour charger cet ensemble de données dans TFDS :
ds = tfds.load('huggingface:amazon_reviews_multi/fr')
- Description :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Licence : En accédant au Corpus d'avis multilingues d'Amazon (« Corpus d'avis »), vous acceptez que le Corpus d'avis soit un service Amazon soumis aux Conditions d'utilisation d'Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) et vous acceptez d'être lié par ceux-ci, avec les conditions supplémentaires suivantes :
En plus des droits de licence accordés dans le cadre des Conditions d'utilisation, Amazon ou ses fournisseurs de contenu vous accordent une licence limitée, non exclusive, non transférable, ne pouvant faire l'objet d'une sous-licence et révocable pour accéder et utiliser le Corpus d'avis à des fins de recherche universitaire. Vous ne pouvez pas revendre, republier ou faire une quelconque utilisation commerciale du Corpus d'avis ou de son contenu, y compris l'utilisation du Corpus d'avis à des fins de recherche commerciale, telle que la recherche liée à un contrat de financement ou de conseil, un stage ou toute autre relation dans laquelle les résultats sont fournis moyennant des frais ou livrés à une organisation à but lucratif. Vous ne pouvez pas (a) lier ou associer le contenu du Corpus d'avis à des informations personnelles (y compris les comptes clients Amazon), ou (b) tenter de déterminer l'identité de l'auteur de tout contenu du Corpus d'avis. Si vous violez l'une des conditions ci-dessus, votre licence d'accès et d'utilisation du Corpus d'avis sera automatiquement résiliée, sans préjudice des autres droits ou recours dont Amazon peut disposer.
- Version : 1.0.0
- Divisions :
Diviser | Exemples |
---|---|
'test' | 5000 |
'train' | 200 000 |
'validation' | 5000 |
- Caractéristiques :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
oui
Utilisez la commande suivante pour charger cet ensemble de données dans TFDS :
ds = tfds.load('huggingface:amazon_reviews_multi/ja')
- Description :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Licence : En accédant au Corpus d'avis multilingues d'Amazon (« Corpus d'avis »), vous acceptez que le Corpus d'avis soit un service Amazon soumis aux Conditions d'utilisation d'Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) et vous acceptez d'être lié par ceux-ci, avec les conditions supplémentaires suivantes :
En plus des droits de licence accordés dans le cadre des Conditions d'utilisation, Amazon ou ses fournisseurs de contenu vous accordent une licence limitée, non exclusive, non transférable, ne pouvant faire l'objet d'une sous-licence et révocable pour accéder et utiliser le Corpus d'avis à des fins de recherche universitaire. Vous ne pouvez pas revendre, republier ou faire une quelconque utilisation commerciale du Corpus d'avis ou de son contenu, y compris l'utilisation du Corpus d'avis à des fins de recherche commerciale, telle que la recherche liée à un contrat de financement ou de conseil, un stage ou toute autre relation dans laquelle les résultats sont fournis moyennant des frais ou livrés à une organisation à but lucratif. Vous ne pouvez pas (a) lier ou associer le contenu du Corpus d'avis à des informations personnelles (y compris les comptes clients Amazon), ou (b) tenter de déterminer l'identité de l'auteur de tout contenu du Corpus d'avis. Si vous violez l'une des conditions ci-dessus, votre licence d'accès et d'utilisation du Corpus d'avis sera automatiquement résiliée, sans préjudice des autres droits ou recours dont Amazon peut disposer.
- Version : 1.0.0
- Divisions :
Diviser | Exemples |
---|---|
'test' | 5000 |
'train' | 200 000 |
'validation' | 5000 |
- Caractéristiques :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
zh
Utilisez la commande suivante pour charger cet ensemble de données dans TFDS :
ds = tfds.load('huggingface:amazon_reviews_multi/zh')
- Description :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.
For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.
Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
- Licence : En accédant au Corpus d'avis multilingues d'Amazon (« Corpus d'avis »), vous acceptez que le Corpus d'avis soit un service Amazon soumis aux Conditions d'utilisation d'Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) et vous acceptez d'être lié par ceux-ci, avec les conditions supplémentaires suivantes :
En plus des droits de licence accordés dans le cadre des Conditions d'utilisation, Amazon ou ses fournisseurs de contenu vous accordent une licence limitée, non exclusive, non transférable, ne pouvant faire l'objet d'une sous-licence et révocable pour accéder et utiliser le Corpus d'avis à des fins de recherche universitaire. Vous ne pouvez pas revendre, republier ou faire une quelconque utilisation commerciale du Corpus d'avis ou de son contenu, y compris l'utilisation du Corpus d'avis à des fins de recherche commerciale, telle que la recherche liée à un contrat de financement ou de conseil, un stage ou toute autre relation dans laquelle les résultats sont fournis moyennant des frais ou livrés à une organisation à but lucratif. Vous ne pouvez pas (a) lier ou associer le contenu du Corpus d'avis à des informations personnelles (y compris les comptes clients Amazon), ou (b) tenter de déterminer l'identité de l'auteur de tout contenu du Corpus d'avis. Si vous violez l'une des conditions ci-dessus, votre licence d'accès et d'utilisation du Corpus d'avis prendra automatiquement fin, sans préjudice des autres droits ou recours dont Amazon peut disposer.
- Version : 1.0.0
- Divisions :
Diviser | Exemples |
---|---|
'test' | 5000 |
'train' | 200 000 |
'validation' | 5000 |
- Caractéristiques :
{
"review_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"reviewer_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"stars": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"review_body": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"review_title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"language": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"product_category": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}