مراجع:
AR-CS
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ar-cs')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 52128 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"cs"
],
"id": null,
"_type": "Translation"
}
}
آر دي
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ar-de')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 68916 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"de"
],
"id": null,
"_type": "Translation"
}
}
CS-دي
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/cs-de')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 172706 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"de"
],
"id": null,
"_type": "Translation"
}
}
ar-en
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ar-en')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 83187 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"en"
],
"id": null,
"_type": "Translation"
}
}
CS-EN
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/cs-en')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 177278 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"en"
],
"id": null,
"_type": "Translation"
}
}
دي أون
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/de-en')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 223153 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"en"
],
"id": null,
"_type": "Translation"
}
}
ar-es
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ar-es')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 78074 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"es"
],
"id": null,
"_type": "Translation"
}
}
CS-ES
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/cs-es')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 170489 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"es"
],
"id": null,
"_type": "Translation"
}
}
دي وفاق
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/de-es')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 209839 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"es"
],
"id": null,
"_type": "Translation"
}
}
ar-es
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/en-es')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 238872 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"es"
],
"id": null,
"_type": "Translation"
}
}
ar-fr
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ar-fr')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 69157 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"fr"
],
"id": null,
"_type": "Translation"
}
}
CS-الاب
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/cs-fr')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 148578 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"fr"
],
"id": null,
"_type": "Translation"
}
}
دي الاب
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/de-fr')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 185442 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"fr"
],
"id": null,
"_type": "Translation"
}
}
ar-fr
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/en-fr')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 209479 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"fr"
],
"id": null,
"_type": "Translation"
}
}
es-fr
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/es-fr')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 195241 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"fr"
],
"id": null,
"_type": "Translation"
}
}
AR-IT
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ar-it')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 17227 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"it"
],
"id": null,
"_type": "Translation"
}
}
CS-IT
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/cs-it')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 30547 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"it"
],
"id": null,
"_type": "Translation"
}
}
تخلص منه
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/de-it')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 38961 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"it"
],
"id": null,
"_type": "Translation"
}
}
أون-إت
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/en-it')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 40009 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"it"
],
"id": null,
"_type": "Translation"
}
}
es-it
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/es-it')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 41497 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"it"
],
"id": null,
"_type": "Translation"
}
}
الاب ذلك
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/fr-it')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 38485 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"it"
],
"id": null,
"_type": "Translation"
}
}
ar-ja
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ar-ja')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 569 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"ja"
],
"id": null,
"_type": "Translation"
}
}
cs-ja
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/cs-ja')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 622 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"ja"
],
"id": null,
"_type": "Translation"
}
}
دي جا
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/de-ja')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 582 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"ja"
],
"id": null,
"_type": "Translation"
}
}
en-ja
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/en-ja')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 637 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"ja"
],
"id": null,
"_type": "Translation"
}
}
es-ja
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/es-ja')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 602 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"ja"
],
"id": null,
"_type": "Translation"
}
}
fr-ja
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/fr-ja')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 519 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"ja"
],
"id": null,
"_type": "Translation"
}
}
ar-nl
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ar-nl')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 9047 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"nl"
],
"id": null,
"_type": "Translation"
}
}
CS-NL
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/cs-nl')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 17358 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"nl"
],
"id": null,
"_type": "Translation"
}
}
دي nl
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/de-nl')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 21439 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"nl"
],
"id": null,
"_type": "Translation"
}
}
ar-nl
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/en-nl')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 19399 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"nl"
],
"id": null,
"_type": "Translation"
}
}
es-nl
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/es-nl')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 21012 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"nl"
],
"id": null,
"_type": "Translation"
}
}
الاب-nl
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/fr-nl')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 20898 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"nl"
],
"id": null,
"_type": "Translation"
}
}
it-nl
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/it-nl')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 15428 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"it",
"nl"
],
"id": null,
"_type": "Translation"
}
}
آر-PT
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ar-pt')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 11433 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"pt"
],
"id": null,
"_type": "Translation"
}
}
CS-PT
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/cs-pt')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 18356 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"pt"
],
"id": null,
"_type": "Translation"
}
}
دي بي تي
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/de-pt')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 21884 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"pt"
],
"id": null,
"_type": "Translation"
}
}
أون-حزب العمال
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/en-pt')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 25929 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"pt"
],
"id": null,
"_type": "Translation"
}
}
es-pt
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/es-pt')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 25551 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"pt"
],
"id": null,
"_type": "Translation"
}
}
الاب-حزب العمال
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/fr-pt')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 25642 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"pt"
],
"id": null,
"_type": "Translation"
}
}
it-pt
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/it-pt')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 11407 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"it",
"pt"
],
"id": null,
"_type": "Translation"
}
}
nl-pt
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/nl-pt')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 10598 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"nl",
"pt"
],
"id": null,
"_type": "Translation"
}
}
آر رو
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ar-ru')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 84455 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"ru"
],
"id": null,
"_type": "Translation"
}
}
cs-ru
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/cs-ru')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 161133 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"ru"
],
"id": null,
"_type": "Translation"
}
}
دي رو
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/de-ru')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 175905 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"ru"
],
"id": null,
"_type": "Translation"
}
}
ar-ru
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/en-ru')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 190104 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"ru"
],
"id": null,
"_type": "Translation"
}
}
es-ru
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/es-ru')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 180217 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"ru"
],
"id": null,
"_type": "Translation"
}
}
fr-ru
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/fr-ru')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 160740 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"ru"
],
"id": null,
"_type": "Translation"
}
}
it-ru
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/it-ru')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 27267 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"it",
"ru"
],
"id": null,
"_type": "Translation"
}
}
جا رو
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ja-ru')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 586 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ja",
"ru"
],
"id": null,
"_type": "Translation"
}
}
nl-ru
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/nl-ru')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 19112 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"nl",
"ru"
],
"id": null,
"_type": "Translation"
}
}
pt-ru
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/pt-ru')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 18458 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"pt",
"ru"
],
"id": null,
"_type": "Translation"
}
}
ar-zh
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ar-zh')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 66021 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"zh"
],
"id": null,
"_type": "Translation"
}
}
CS-ZH
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/cs-zh')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 45424 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"zh"
],
"id": null,
"_type": "Translation"
}
}
دي ز
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/de-zh')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 59020 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"zh"
],
"id": null,
"_type": "Translation"
}
}
أون ز
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/en-zh')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 69206 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"zh"
],
"id": null,
"_type": "Translation"
}
}
es-zh
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/es-zh')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 65424 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"zh"
],
"id": null,
"_type": "Translation"
}
}
fr-zh
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/fr-zh')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 59060 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"zh"
],
"id": null,
"_type": "Translation"
}
}
it-zh
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/it-zh')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 14652 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"it",
"zh"
],
"id": null,
"_type": "Translation"
}
}
جا-زه
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ja-zh')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 570 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ja",
"zh"
],
"id": null,
"_type": "Translation"
}
}
nl-zh
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/nl-zh')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 8433 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"nl",
"zh"
],
"id": null,
"_type": "Translation"
}
}
بت-زه
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/pt-zh')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 10873 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"pt",
"zh"
],
"id": null,
"_type": "Translation"
}
}
رو-زه
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:news_commentary/ru-zh')
- وصف :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- الترخيص : لا يوجد ترخيص معروف
- الإصدار : 11.0.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 47687 |
- سمات :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ru",
"zh"
],
"id": null,
"_type": "Translation"
}
}