- Описание :
Выявление параллельных предложений в сопоставимых корпусах. Ожидается, что при наличии двух одноязычных корпусов, разделенных на предложения, участвующие системы будут идентифицировать пары предложений, которые являются переводами друг друга.
Задача интеллектуального анализа данных BUCC — это общая задача по параллельному извлечению предложений из двух одноязычных корпусов, подмножество которых предполагается параллельным, и которая доступна с 2016 года. Для каждой языковой пары общая задача предоставляет одноязычный корпус для каждого языка и золотой список сопоставлений, содержащий истинные пары перевода. Эти пары — истина. Задача состоит в том, чтобы построить список пар перевода из одноязычных корпусов. Построенный список сравнивается с реальными данными и оценивается с точки зрения меры F1.
Домашняя страница : https://comparable.limsi.fr/bucc2018/
Исходный код :
tfds.datasets.bucc.Builder
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Автоматическое кэширование ( документация ): Да
Структура функции :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
source_id | Текст | нить | ||
исходное_предложение | Текст | нить | ||
target_id | Текст | нить | ||
target_sentence | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (конфигурация по умолчанию)
Размер загрузки :
29.30 MiB
Размер набора данных :
3.21 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 9580 |
'validation' | 1038 |
- Примеры ( tfds.as_dataframe ):
bucc/bucc_fr
Размер загрузки :
21.65 MiB
Размер набора данных :
2.90 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 9086 |
'validation' | 929 |
- Примеры ( tfds.as_dataframe ):
bucc/bucc_zh
Размер загрузки :
6.79 MiB
Размер набора данных :
615.20 KiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1899 |
'validation' | 257 |
- Примеры ( tfds.as_dataframe ):
bucc/bucc_ru
Размер загрузки :
39.44 MiB
Размер набора данных :
6.36 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 14 435 |
'validation' | 2374 |
- Примеры ( tfds.as_dataframe ):