Referências:
unshuffled_deduplicated_af
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 130640 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_als
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4518 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_arz
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 79928 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_an
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2025 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ast
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5343 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ba
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 27050 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_am
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 43102 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_as
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9212 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_azb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9985 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_be
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 307405 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 15762 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bxr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 36 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ceb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 26145 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_az
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 626796 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bcl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cy
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 98225 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_dsb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 37 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1114481 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bs
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 702 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ce
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2984 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 10130 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_diq
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_eml
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 80 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_et
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1172041 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bg
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3398679 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bpy
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1770 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ca
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2458067 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ckb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 68210 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ar
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9006977 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_av
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 360 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bar
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bh
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 82 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_br
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 14724 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cbk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_da
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4771098 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_dv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 17024 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_eo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 84752 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fa
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 8203495 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fy
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 20661 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 68 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cs
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 12308039 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hi
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1909387 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 6582908 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ie
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 11 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 59448891 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gd
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3883 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 169834 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hsb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3084 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ia
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 529 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_io
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 617 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_jbo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 617 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_km
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 108346 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ku
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 29054 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_la
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 18808 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lmo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1374 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 843195 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_min
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 166 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 212556 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mwl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 7 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_nah
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 58 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_new
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2126 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_oc
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 6485 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_pam
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ps
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 67921 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_it
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 28522082 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ka
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ka')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 372158 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ro
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ro')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5044757 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_scn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_scn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 17 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ko
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ko')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3675420 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_kw
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kw')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 68 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lez
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lez')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1381 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lrc
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lrc')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 72 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mg
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mg')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 13343 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ml
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ml')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 453904 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ms
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ms')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 183443 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_myv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_myv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_nds
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nds')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 8714 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_nn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 109118 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_os
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_os')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2559 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_pms
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pms')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2859 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_qu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_qu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 411 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_sa
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sa')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 7121 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_sk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2820821 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_sh
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sh')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 17610 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_so
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_so')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 42 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_sr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 645747 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ta
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ta')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 833101 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_tk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4694 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_tyv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tyv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 24 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_uz
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uz')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 15074 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_wa
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wa')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 677 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_xmf
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xmf')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2418 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_sv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 11014487 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_tg
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tg')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 56259 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_de
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_de')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 62398034 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_tr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 11596446 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_el
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_el')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 6521169 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_uk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 7782375 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_vi
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vi')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9897709 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_wuu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wuu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 64 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_yo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 49 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_als
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_als')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 7324 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_arz
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_arz')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 158113 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_az
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_az')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 912330 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_bcl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_bcl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_bn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_bn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1675515 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_bs
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_bs')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2143 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ce
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ce')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4042 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
não embaralhado_original_cv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_cv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 20281 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_diq
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_diq')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_eml
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_eml')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 84 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_et
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_et')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2093621 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_zh
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_zh')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 41708901 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_an
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_an')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2449 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ast
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ast')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 6999 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ba
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ba')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 42551 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_bg
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_bg')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5869686 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_bpy
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_bpy')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 6046 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ca
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ca')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4390754 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ckb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ckb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 103639 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_es
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_es')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 56326016 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_da
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_da')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 7664010 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_dv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_dv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 21018 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_eo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_eo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 121168 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fi
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fi')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5326443 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ga
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ga')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 46493 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gom
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gom')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 484 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 321484 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hy
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hy')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 396093 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ilo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ilo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1578 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_fa
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_fa')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 13704702 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_fy
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_fy')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 33053 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_gn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_gn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 106 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_hi
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_hi')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3264660 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_hu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_hu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 11197780 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ie
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ie')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 101 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ja
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ja')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 39496439 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_kk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 338073 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_krc
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_krc')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1377 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ky
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ky')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 86561 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_li
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_li')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 118 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lt
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lt')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1737411 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mhr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mhr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2515 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 197878 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mt
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mt')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 16383 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mzn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mzn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 917 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ne
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ne')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 219334 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_no
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_no')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3229940 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_pa
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pa')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 87235 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_pnb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pnb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3463 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_rm
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_rm')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 34 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_sah
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sah')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 8555 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_si
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_si')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 120684 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_sq
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sq')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 461598 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_sw
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sw')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 24803 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_th
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_th')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3749826 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_tt
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tt')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 82738 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ur
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ur')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 428674 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_vo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3317 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_xal
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xal')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 36 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_yue
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yue')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 7 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_am
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_am')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 83663 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_as
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_as')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 14985 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_azb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_azb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 15446 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_be
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_be')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 586031 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_bo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_bo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 26795 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_bxr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_bxr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 42 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ceb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ceb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 56248 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_cy
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_cy')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 157698 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_dsb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_dsb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 65 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_fr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_fr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 96742378 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_gd
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_gd')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5799 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_gu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_gu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 240691 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_hsb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_hsb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 7959 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ia
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ia')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1040 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_io
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_io')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 694 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_jbo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_jbo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 832 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_km
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_km')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 159363 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ku
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ku')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 46535 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_la
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_la')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 94588 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_lmo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_lmo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1401 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_lv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_lv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1593820 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_min
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_min')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 220 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_mr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_mr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 326804 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_mwl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_mwl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 8 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_nah
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_nah')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 61 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_new
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_new')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4696 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_oc
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_oc')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 10709 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_pam
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_pam')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ps
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ps')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 98216 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ro
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ro')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9387265 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_scn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_scn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 21 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_sk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_sk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5492194 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_sr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_sr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1013619 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ta
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ta')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1263280 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_tk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_tk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 6456 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_tyv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_tyv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 34 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_uz
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_uz')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 27537 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_wa
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_wa')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1001 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_xmf
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_xmf')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3783 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_it
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_it')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 46981781 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ka
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ka')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 563916 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ko
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ko')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 7345075 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_kw
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_kw')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 203 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_lez
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_lez')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1485 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_lrc
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_lrc')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 88 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_mg
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_mg')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 17957 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ml
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ml')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 603937 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ms
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ms')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 534016 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_myv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_myv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 6 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_nds
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_nds')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 18174 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_nn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_nn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 185884 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_os
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_os')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5213 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_pms
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_pms')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3225 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_qu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_qu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 452 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_sa
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_sa')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 14291 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_sh
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_sh')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 36700 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_so
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_so')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 156 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_sv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_sv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 17395625 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_tg
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_tg')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 89002 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_tr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_tr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 18535253 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_uk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_uk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 12973467 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_vi
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_vi')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 14898250 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_wuu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_wuu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 214 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_yo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_yo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 214 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_zh
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_zh')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 60137667 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_en
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_en')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 304230423 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_eu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 256513 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_frr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_frr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 7 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 284320 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_he
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_he')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2375030 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ht
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ht')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_id
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_id')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9948521 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_is
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_is')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 389515 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_jv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1163 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_kn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 251064 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_kv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 924 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 21735 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 32652 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mai
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mai')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 25 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 299457 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mrj
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mrj')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 669 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_my
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_my')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 136639 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_nap
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nap')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 55 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_nl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 20812149 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_or
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_or')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 44230 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_pl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 20682611 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_pt
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pt')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 26920397 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ru
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ru')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 115954598 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_sd
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sd')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 33925 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_sl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 886223 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_su
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_su')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 511 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_te
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_te')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 312644 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_tl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 294132 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ug
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ug')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 15503 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_vec
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vec')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 64 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_war
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_war')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9161 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_yi
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yi')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 32919 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_af
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_af')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 201117 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ar
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ar')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 16365602 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_av
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_av')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 456 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_bar
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_bar')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_bh
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_bh')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 336 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_br
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_br')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 37085 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_cbk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_cbk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_cs
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_cs')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 21001388 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_de
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_de')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 104913504 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_el
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_el')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 10425596 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_es
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_es')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 88199221 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_fi
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_fi')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 8557453 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ga
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ga')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 83223 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_gom
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_gom')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 640 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_hr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_hr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 582219 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_hy
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_hy')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 659430 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ilo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ilo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2638 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ja
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ja')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 62721527 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_kk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_kk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 524591 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_krc
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_krc')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1581 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ky
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ky')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 146993 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_li
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_li')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 137 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_lt
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_lt')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2977757 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_mhr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_mhr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3212 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_mn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_mn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 395605 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_mt
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_mt')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 26598 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_mzn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_mzn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1055 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ne
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ne')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 299938 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
não embaralhado_original_no
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_no')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5546211 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_pa
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_pa')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 127467 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_pnb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_pnb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4599 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_rm
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_rm')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 41 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_sah
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_sah')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 22301 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_si
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_si')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 203082 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_sq
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_sq')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 672077 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_sw
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_sw')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 41986 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_th
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_th')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 6064129 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_tt
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_tt')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 135923 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ur
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ur')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 638596 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_vo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_vo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3366 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_xal
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_xal')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 39 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_yue
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_yue')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 11 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_en
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_en')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 455994980 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_eu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_eu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 506883 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_frr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_frr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 7 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_gl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_gl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 544388 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_he
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_he')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3808397 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ht
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ht')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 13 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
não embaralhado_original_id
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_id')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 16236463 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_is
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_is')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 625673 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_jv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_jv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1445 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_kn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_kn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 350363 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
não embaralhado_original_kv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_kv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1549 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_lb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_lb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 34807 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_lo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_lo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 52910 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_mai
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_mai')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 123 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_mk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_mk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 437871 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_mrj
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_mrj')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 757 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_my
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_my')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 232329 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_nap
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_nap')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 73 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_nl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_nl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 34682142 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_or
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_or')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 59463 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_pl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_pl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 35440972 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_pt
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_pt')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 42114520 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ru
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ru')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 161836003 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_sd
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_sd')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 44280 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_sl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_sl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1746604 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_su
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_su')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 805 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_te
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_te')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 475703 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_tl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_tl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 458206 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_ug
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_ug')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 22255 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_vec
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_vec')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 73 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_war
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_war')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9760 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_original_yi
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_original_yi')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 59364 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}