Tài liệu tham khảo:
sự đơn giản hóa
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:turk/simplification')
- Sự miêu tả :
TURKCorpus is a dataset for evaluating sentence simplification systems that focus on lexical paraphrasing,
as described in "Optimizing Statistical Machine Translation for Text Simplification". The corpus is composed of 2000 validation and 359 test original sentences that were each simplified 8 times by different annotators.
- Giấy phép : Giấy phép Công cộng GNU v3.0
- Phiên bản : 1.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 359 |
'validation' | 2000 |
- Đặc trưng :
{
"original": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"simplifications": {
"feature": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"length": -1,
"id": null,
"_type": "Sequence"
}
}