- Descriptif :
OPUS est une collection de textes traduits du Web.
Créez votre propre configuration pour choisir la paire données/langue à charger.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : http://opus.nlpl.eu/
Code source :
tfds.datasets.opus.Builder
Versions :
-
0.1.0
(par défaut) : aucune note de version.
-
Structure des fonctionnalités :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
de | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('de', 'en')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/medical (config par défaut)
Description de la configuration : documents médicaux
Taille du téléchargement :
34.29 MiB
Taille du jeu de données :
188.85 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'train' | 1 108 752 |
- Exemples ( tfds.as_dataframe ):
opus/loi
Description de la configuration : documents juridiques
Taille du téléchargement :
46.99 MiB
Taille du jeu de données :
214.44 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'train' | 719 372 |
- Exemples ( tfds.as_dataframe ):
opus/coran
Description de la configuration : documents coraniques
Taille du téléchargement :
35.42 MiB
Taille du jeu de données :
117.54 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 537 128 |
- Exemples ( tfds.as_dataframe ):
opus/informatique
Description de la configuration : Documents informatiques
Taille du téléchargement :
10.33 MiB
Taille du jeu de données :
42.51 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 347 817 |
- Exemples ( tfds.as_dataframe ):
opus/sous-titres
Description de la configuration : sous-titres des documents
Taille du téléchargement :
677.64 MiB
Taille du jeu de données :
2.01 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 22 512 639 |
- Exemples ( tfds.as_dataframe ):