Tài liệu tham khảo:
ar-cs
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ar-cs')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 52128 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"cs"
],
"id": null,
"_type": "Translation"
}
}
ar-de
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ar-de')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 68916 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"de"
],
"id": null,
"_type": "Translation"
}
}
cs-de
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/cs-de')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 172706 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"de"
],
"id": null,
"_type": "Translation"
}
}
ar-en
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ar-en')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 83187 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"en"
],
"id": null,
"_type": "Translation"
}
}
cs-en
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/cs-en')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 177278 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"en"
],
"id": null,
"_type": "Translation"
}
}
de-en
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/de-en')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 223153 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"en"
],
"id": null,
"_type": "Translation"
}
}
ar-es
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ar-es')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 78074 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"es"
],
"id": null,
"_type": "Translation"
}
}
cs-es
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/cs-es')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 170489 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"es"
],
"id": null,
"_type": "Translation"
}
}
de-es
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/de-es')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 209839 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"es"
],
"id": null,
"_type": "Translation"
}
}
en-es
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/en-es')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 238872 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"es"
],
"id": null,
"_type": "Translation"
}
}
ar-fr
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ar-fr')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 69157 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"fr"
],
"id": null,
"_type": "Translation"
}
}
cs-fr
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/cs-fr')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 148578 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"fr"
],
"id": null,
"_type": "Translation"
}
}
de-fr
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/de-fr')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 185442 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"fr"
],
"id": null,
"_type": "Translation"
}
}
en-fr
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/en-fr')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 209479 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"fr"
],
"id": null,
"_type": "Translation"
}
}
es-fr
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/es-fr')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 195241 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"fr"
],
"id": null,
"_type": "Translation"
}
}
ar-nó
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ar-it')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 17227 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"it"
],
"id": null,
"_type": "Translation"
}
}
cs-nó
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/cs-it')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 30547 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"it"
],
"id": null,
"_type": "Translation"
}
}
bỏ nó đi
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/de-it')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 38961 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"it"
],
"id": null,
"_type": "Translation"
}
}
en-nó
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/en-it')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 40009 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"it"
],
"id": null,
"_type": "Translation"
}
}
ừ-nó
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/es-it')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 41497 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"it"
],
"id": null,
"_type": "Translation"
}
}
fr-nó
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/fr-it')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 38485 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"it"
],
"id": null,
"_type": "Translation"
}
}
ar-ja
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ar-ja')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 569 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"ja"
],
"id": null,
"_type": "Translation"
}
}
cs-ja
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/cs-ja')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 622 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"ja"
],
"id": null,
"_type": "Translation"
}
}
de-ja
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/de-ja')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 582 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"ja"
],
"id": null,
"_type": "Translation"
}
}
en-ja
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/en-ja')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 637 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"ja"
],
"id": null,
"_type": "Translation"
}
}
es-ja
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/es-ja')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 602 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"ja"
],
"id": null,
"_type": "Translation"
}
}
fr-ja
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/fr-ja')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 519 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"ja"
],
"id": null,
"_type": "Translation"
}
}
ar-nl
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ar-nl')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 9047 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"nl"
],
"id": null,
"_type": "Translation"
}
}
cs-nl
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/cs-nl')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 17358 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"nl"
],
"id": null,
"_type": "Translation"
}
}
de-nl
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/de-nl')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 21439 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"nl"
],
"id": null,
"_type": "Translation"
}
}
en-nl
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/en-nl')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 19399 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"nl"
],
"id": null,
"_type": "Translation"
}
}
es-nl
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/es-nl')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 21012 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"nl"
],
"id": null,
"_type": "Translation"
}
}
fr-nl
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/fr-nl')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 20898 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"nl"
],
"id": null,
"_type": "Translation"
}
}
nó-nl
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/it-nl')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 15428 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"it",
"nl"
],
"id": null,
"_type": "Translation"
}
}
ar-pt
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ar-pt')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 11433 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"pt"
],
"id": null,
"_type": "Translation"
}
}
cs-pt
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/cs-pt')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 18356 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"pt"
],
"id": null,
"_type": "Translation"
}
}
de-pt
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/de-pt')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 21884 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"pt"
],
"id": null,
"_type": "Translation"
}
}
en-pt
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/en-pt')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 25929 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"pt"
],
"id": null,
"_type": "Translation"
}
}
es-pt
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/es-pt')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 25551 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"pt"
],
"id": null,
"_type": "Translation"
}
}
fr-pt
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/fr-pt')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 25642 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"pt"
],
"id": null,
"_type": "Translation"
}
}
nó-pt
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/it-pt')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 11407 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"it",
"pt"
],
"id": null,
"_type": "Translation"
}
}
nl-pt
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/nl-pt')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 10598 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"nl",
"pt"
],
"id": null,
"_type": "Translation"
}
}
ar-ru
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ar-ru')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 84455 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"ru"
],
"id": null,
"_type": "Translation"
}
}
cs-ru
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/cs-ru')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 161133 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"ru"
],
"id": null,
"_type": "Translation"
}
}
de-ru
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/de-ru')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 175905 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"ru"
],
"id": null,
"_type": "Translation"
}
}
en-ru
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/en-ru')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 190104 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"ru"
],
"id": null,
"_type": "Translation"
}
}
es-ru
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/es-ru')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 180217 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"ru"
],
"id": null,
"_type": "Translation"
}
}
fr-ru
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/fr-ru')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 160740 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"ru"
],
"id": null,
"_type": "Translation"
}
}
nó-ru
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/it-ru')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 27267 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"it",
"ru"
],
"id": null,
"_type": "Translation"
}
}
ja-ru
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ja-ru')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 586 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ja",
"ru"
],
"id": null,
"_type": "Translation"
}
}
nl-ru
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/nl-ru')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 19112 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"nl",
"ru"
],
"id": null,
"_type": "Translation"
}
}
pt-ru
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/pt-ru')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 18458 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"pt",
"ru"
],
"id": null,
"_type": "Translation"
}
}
ar-zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ar-zh')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 66021 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ar",
"zh"
],
"id": null,
"_type": "Translation"
}
}
cs-zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/cs-zh')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 45424 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"cs",
"zh"
],
"id": null,
"_type": "Translation"
}
}
de-zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/de-zh')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 59020 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"de",
"zh"
],
"id": null,
"_type": "Translation"
}
}
en-zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/en-zh')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 69206 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"en",
"zh"
],
"id": null,
"_type": "Translation"
}
}
es-zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/es-zh')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 65424 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"es",
"zh"
],
"id": null,
"_type": "Translation"
}
}
fr-zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/fr-zh')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 59060 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"fr",
"zh"
],
"id": null,
"_type": "Translation"
}
}
nó-zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/it-zh')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 14652 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"it",
"zh"
],
"id": null,
"_type": "Translation"
}
}
ja-zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ja-zh')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 570 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ja",
"zh"
],
"id": null,
"_type": "Translation"
}
}
nl-zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/nl-zh')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 8433 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"nl",
"zh"
],
"id": null,
"_type": "Translation"
}
}
pt-zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/pt-zh')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 10873 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"pt",
"zh"
],
"id": null,
"_type": "Translation"
}
}
ru-zh
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:news_commentary/ru-zh')
- Sự miêu tả :
A parallel corpus of News Commentaries provided by WMT for training SMT. The source is taken from CASMACAT: http://www.casmacat.eu/corpus/news-commentary.html
12 languages, 63 bitexts
total number of files: 61,928
total number of tokens: 49.66M
total number of sentence fragments: 1.93M
- Giấy phép : Không có giấy phép được biết đến
- Phiên bản : 11.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 47687 |
- Đặc trưng :
{
"id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"translation": {
"languages": [
"ru",
"zh"
],
"id": null,
"_type": "Translation"
}
}