ओपुस

  • विवरण :

ओपस वेब से अनुवादित ग्रंथों का संग्रह है।

कौन सा डेटा/भाषा युग्म लोड करना है, यह चुनने के लिए अपना खुद का कॉन्फ़िगरेशन बनाएं।

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
अनुवाद
डे मूलपाठ डोरी
एन मूलपाठ डोरी
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

काम/चिकित्सा (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • विन्यास विवरण : चिकित्सा दस्तावेज

  • डाउनलोड आकार : 34.29 MiB

  • डेटासेट का आकार : 188.85 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'train' 1,108,752

काम / कानून

  • विन्यास विवरण : कानून के दस्तावेज

  • डाउनलोड आकार : 46.99 MiB

  • डेटासेट का आकार : 214.44 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'train' 719,372

ओपस / कुरान

  • विन्यास विवरण : कुरान दस्तावेज़

  • डाउनलोड आकार : 35.42 MiB

  • डेटासेट का आकार : 117.54 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 537,128

काम / आईटी

  • कॉन्फ़िगरेशन विवरण : आईटी दस्तावेज़

  • डाउनलोड आकार : 10.33 MiB

  • डेटासेट का आकार : 42.51 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 347,817

काम / उपशीर्षक

  • कॉन्फ़िगरेशन विवरण : उपशीर्षक दस्तावेज़

  • डाउनलोड आकार : 677.64 MiB

  • डेटासेट का आकार : 2.01 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'train' 22,512,639