- Descriptif :
Corpus parallèles à l'échelle du Web pour les langues européennes officielles.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://paracrawl.eu/releases.html
Code source :
tfds.datasets.para_crawl.Builder
Versions :
-
1.2.0
(par défaut) : aucune note de version.
-
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@misc {paracrawl,
title = "ParaCrawl",
year = "2018",
url = "http://paracrawl.eu/download.html."
}
para_crawl/enbg (configuration par défaut)
Description de la configuration : ensemble de données de traduction de l'anglais vers le bg.
Taille du téléchargement :
98.94 MiB
Taille du jeu de données :
362.46 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 1 039 885 |
- Structure des fonctionnalités :
Translation({
'bg': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
bg | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'bg')
Exemples ( tfds.as_dataframe ):
para_crawl/encs
Description de la configuration : ensemble de données de traduction de l'anglais vers cs.
Taille du téléchargement :
187.31 MiB
Taille du jeu de données :
666.34 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 2 981 949 |
- Structure des fonctionnalités :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
cs | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('en', 'cs')
Exemples ( tfds.as_dataframe ):
para_crawl/enda
Description de la configuration : ensemble de données de traduction de l'anglais vers da.
Taille du téléchargement :
174.34 MiB
Taille du jeu de données :
619.77 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 2 414 895 |
- Structure des fonctionnalités :
Translation({
'da': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
un | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'da')
Exemples ( tfds.as_dataframe ):
para_crawl/ende
Description de la configuration : ensemble de données de traduction de l'anglais vers l'allemand.
Taille du téléchargement :
1.22 GiB
Taille du jeu de données :
4.04 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 16 264 448 |
- Structure des fonctionnalités :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
de | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'de')
Exemples ( tfds.as_dataframe ):
para_crawl/enel
Description de la configuration : jeu de données de traduction de l'anglais vers l'el.
Taille du téléchargement :
184.59 MiB
Taille du jeu de données :
698.75 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 1 985 233 |
- Structure des fonctionnalités :
Translation({
'el': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
el | Texte | chaîne de caractères | ||
fr | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'el')
Exemples ( tfds.as_dataframe ):
para_crawl/enes
Description de la configuration : jeu de données de traduction de l'anglais vers l'es.
Taille du téléchargement :
1.82 GiB
Taille du jeu de données :
6.23 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 21 987 267 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'es': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
es | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'es')
Exemples ( tfds.as_dataframe ):
para_crawl/enet
Description de la configuration : ensemble de données de traduction de l'anglais vers et.
Taille du téléchargement :
66.91 MiB
Taille du jeu de données :
209.16 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'train' | 853 422 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'et': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
et | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'et')
Exemples ( tfds.as_dataframe ):
para_crawl/enfi
Description de la configuration : jeu de données de traduction de l'anglais vers fi.
Taille du téléchargement :
151.83 MiB
Taille du jeu de données :
543.85 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 2 156 069 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
Fi | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'fi')
Exemples ( tfds.as_dataframe ):
para_crawl/enfr
Description de la configuration : ensemble de données de traduction de l'anglais vers le fr.
Taille du téléchargement :
2.63 GiB
Taille du jeu de données :
9.04 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 31 374 161 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
en | Texte | chaîne de caractères |
Touches supervisées (Voir doc
as_supervised
):('en', 'fr')
Exemples ( tfds.as_dataframe ):
para_crawl/enga
Description de la configuration : ensemble de données de traduction de l'anglais vers ga.
Taille du téléchargement :
28.03 MiB
Taille du jeu de données :
107.09 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 357 399 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'ga': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
Géorgie | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'ga')
Exemples ( tfds.as_dataframe ):
para_crawl/enhr
Description de la configuration : ensemble de données de traduction de l'anglais vers hr.
Taille du téléchargement :
80.97 MiB
Taille du jeu de données :
256.37 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 1 002 053 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'hr': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
heure | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'hr')
Exemples ( tfds.as_dataframe ):
para_crawl/enhu
Description de la configuration : ensemble de données de traduction de l'anglais vers l'hu.
Taille du téléchargement :
114.24 MiB
Taille du jeu de données :
421.40 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 1 901 342 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'hu': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
heu | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'hu')
Exemples ( tfds.as_dataframe ):
para_crawl/enit
Description de la configuration : ensemble de données de traduction de l'anglais vers celui-ci.
Taille du téléchargement :
1017.30 MiB
Taille du jeu de données :
3.36 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 12 162 239 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'it': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
ce | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'it')
Exemples ( tfds.as_dataframe ):
para_crawl/enlt
Description de la configuration : ensemble de données de traduction de l'anglais vers lt.
Taille du téléchargement :
63.28 MiB
Taille du jeu de données :
204.70 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'train' | 844 643 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'lt': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
ça | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'lt')
Exemples ( tfds.as_dataframe ):
para_crawl/enlv
Description de la configuration : ensemble de données de traduction de l'anglais vers le niv.
Taille du téléchargement :
45.17 MiB
Taille du jeu de données :
147.09 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'train' | 553 060 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
LV | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'lv')
Exemples ( tfds.as_dataframe ):
para_crawl/enmt
Description de la configuration : ensemble de données de traduction de l'anglais vers mt.
Taille du téléchargement :
18.15 MiB
Taille du jeu de données :
54.36 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 195 502 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'mt': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
mt | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'mt')
Exemples ( tfds.as_dataframe ):
para_crawl/ennl
Description de la configuration : ensemble de données de traduction de l'anglais vers nl.
Taille du téléchargement :
400.63 MiB
Taille du jeu de données :
1.40 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 5 659 268 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'nl': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
NL | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'nl')
Exemples ( tfds.as_dataframe ):
para_crawl/enpl
Description de la configuration : jeu de données de traduction de l'anglais vers le pl.
Taille du téléchargement :
257.90 MiB
Taille du jeu de données :
885.63 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 3 503 276 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'pl': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
PL | Texte | chaîne de caractères |
Touches supervisées (Voir doc
as_supervised
):('en', 'pl')
Exemples ( tfds.as_dataframe ):
para_crawl/enpt
Description de la configuration : jeu de données de traduction de l'anglais vers pt.
Taille du téléchargement :
608.62 MiB
Taille du jeu de données :
2.05 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 8 141 940 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
pt | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'pt')
Exemples ( tfds.as_dataframe ):
para_crawl/enro
Description de la configuration : jeu de données de traduction de l'anglais vers le ro.
Taille du téléchargement :
153.24 MiB
Taille du jeu de données :
534.34 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 1 952 043 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
ro | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'ro')
Exemples ( tfds.as_dataframe ):
para_crawl/ensk
Description de la configuration : ensemble de données de traduction de l'anglais vers le sk.
Taille du téléchargement :
96.61 MiB
Taille du jeu de données :
352.91 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 1 591 831 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'sk': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
sk | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'sk')
Exemples ( tfds.as_dataframe ):
para_crawl/ensl
Description de la configuration : ensemble de données de traduction de l'anglais vers sl.
Taille du téléchargement :
62.02 MiB
Taille du jeu de données :
187.66 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'train' | 660 161 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'sl': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
sl | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'sl')
Exemples ( tfds.as_dataframe ):
para_crawl/ensv
Description de la configuration : ensemble de données de traduction de l'anglais vers sv.
Taille du téléchargement :
262.76 MiB
Taille du jeu de données :
905.72 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 3 476 729 |
- Structure des fonctionnalités :
Translation({
'en': Text(shape=(), dtype=string),
'sv': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
Traduction | ||||
fr | Texte | chaîne de caractères | ||
sv | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('en', 'sv')
Exemples ( tfds.as_dataframe ):