UnicodeDecodeWithOffsets

الفئة النهائية العامة UnicodeDecodeWithOffsets

يقوم بفك تشفير كل سلسلة في "الإدخال" إلى سلسلة من نقاط كود Unicode.

يتم إرجاع نقاط ترميز الأحرف لجميع السلاسل باستخدام متجه واحد `char_values`، مع توسيع السلاسل إلى أحرف بترتيب الصفوف الرئيسية. وبالمثل، يتم إرجاع إزاحات بايت بداية الحرف باستخدام متجه واحد `char_to_byte_starts`، مع توسيع السلاسل بترتيب الصف الرئيسي.

يشير موتر "row_splits" إلى المكان الذي تبدأ فيه نقاط التشفير وإزاحات البداية لكل سلسلة إدخال وتنتهي ضمن موترتي "char_values" و"char_to_byte_starts". على وجه الخصوص، يتم تخزين قيم السلسلة i`th (بترتيب الصف الرئيسي) في الشريحة `[row_splits[i]:row_splits[i+1]]`. هكذا:

  • `char_values[row_splits[i]+j]` هي نقطة ترميز Unicode للحرف `j` في السلسلة `i` (بترتيب الصفوف الرئيسية).
  • `char_to_bytes_starts[row_splits[i]+j]` هو إزاحة بايت البداية للحرف `j` في السلسلة `i` (بترتيب الصف الرئيسي).
  • `row_splits[i+1] -row_splits[i]` هو عدد الأحرف في السلسلة `i` (بترتيب الصفوف الرئيسية).

فئات متداخلة

فصل UnicodeDecodeWithOffsets.Options السمات الاختيارية لـ UnicodeDecodeWithOffsets

الثوابت

خيط OP_NAME اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي

الأساليب العامة

الإخراج <TInt64>
شارتوبايت ستارتس ()
موتر int32 أحادي الأبعاد يحتوي على فهرس البايت في سلسلة الإدخال حيث يبدأ كل حرف في "char_values".
الإخراج <TInt32>
قيم شار ()
موتر int32 1D يحتوي على نقاط التشفير التي تم فك تشفيرها.
UnicodeDecodeWithOffsets ثابت <TInt64>
إنشاء (نطاق النطاق ، المعامل < TString > الإدخال، String inputEncoding، الخيارات ... الخيارات)
طريقة المصنع لإنشاء فئة تغلف عملية UnicodeDecodeWithOffsets جديدة باستخدام أنواع الإخراج الافتراضية.
ثابت <T يمتد TNumber > UnicodeDecodeWithOffsets <T>
إنشاء (نطاق النطاق ، المعامل < TString > الإدخال، String inputEncoding، Class <T> Tsplits، Options... options)
طريقة المصنع لإنشاء فئة تلتف حول عملية UnicodeDecodeWithOffsets جديدة.
ثابت UnicodeDecodeWithOffsets.Options
أخطاء (أخطاء السلسلة)
ثابت UnicodeDecodeWithOffsets.Options
استبدال أحرف التحكم (استبدال أحرف التحكم المنطقية)
ثابت UnicodeDecodeWithOffsets.Options
استبدال شار (استبدال طويل شار)
الإخراج <T>
تقسيمات الصفوف ()
موتر int32 1D يحتوي على انقسامات الصف.

الطرق الموروثة

الثوابت

السلسلة النهائية الثابتة العامة OP_NAME

اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي

القيمة الثابتة: "UnicodeDecodeWithOffsets"

الأساليب العامة

الإخراج العام <TInt64> charToByteStarts ()

موتر int32 أحادي الأبعاد يحتوي على فهرس البايت في سلسلة الإدخال حيث يبدأ كل حرف في "char_values".

الإخراج العام <TInt32> charValues ​​()

موتر int32 1D يحتوي على نقاط التشفير التي تم فك تشفيرها.

إنشاء UnicodeDecodeWithOffsets الثابت العام < TInt64 > ( نطاق النطاق ، المعامل < TString > الإدخال، String inputEncoding، الخيارات ... خيارات)

طريقة المصنع لإنشاء فئة تغلف عملية UnicodeDecodeWithOffsets جديدة باستخدام أنواع الإخراج الافتراضية.

حدود
نِطَاق النطاق الحالي
مدخل النص المراد فك شفرته. يمكن أن يكون لها أي شكل. لاحظ أن الإخراج تم تسويته إلى متجه لقيم char.
inputEncoding.inputEncoding ترميز النص لسلاسل الإدخال. هذا هو أي من الترميزات التي تدعمها محولات خوارزمية ICU ucnv. أمثلة: `"UTF-16"، "US ASCII"، "UTF-8"`.
خيارات يحمل قيم السمات الاختيارية
عائدات
  • مثيل جديد لـ UnicodeDecodeWithOffsets

إنشاء UnicodeDecodeWithOffsets الثابت العام <T> ( نطاق النطاق، المعامل < TString > الإدخال، String inputEncoding، Class <T> Tsplits، Options... options)

طريقة المصنع لإنشاء فئة تلتف حول عملية UnicodeDecodeWithOffsets جديدة.

حدود
نِطَاق النطاق الحالي
مدخل النص المراد فك شفرته. يمكن أن يكون لها أي شكل. لاحظ أن الإخراج تم تسويته إلى متجه لقيم char.
inputEncoding.inputEncoding ترميز النص لسلاسل الإدخال. هذا هو أي من الترميزات التي تدعمها محولات خوارزمية ICU ucnv. أمثلة: `"UTF-16"، "US ASCII"، "UTF-8"`.
خيارات يحمل قيم السمات الاختيارية
عائدات
  • مثيل جديد لـ UnicodeDecodeWithOffsets

أخطاء UnicodeDecodeWithOffsets.Options العامة الثابتة (أخطاء السلسلة)

حدود
أخطاء خطأ في التعامل مع السياسة عند العثور على تنسيق غير صالح في الإدخال. ستؤدي قيمة "صارم" إلى ظهور خطأ InvalidArgument في أي تنسيق إدخال غير صالح. ستؤدي قيمة "استبدال" (القيمة الافتراضية) إلى استبدال العملية لأي تنسيق غير صالح في الإدخال بنقطة التشفير "replacement_char". ستؤدي قيمة "تجاهل" إلى تخطي العملية لأي تنسيق غير صالح في الإدخال وعدم إنتاج أي حرف إخراج مطابق.

UnicodeDecodeWithOffsets.Options الثابت العام ، استبدالControlCharacters (استبدال منطقي منطقي)

حدود
استبدال أحرف التحكم ما إذا كان سيتم استبدال أحرف التحكم C0 (00-1F) بـ "replacement_char". الافتراضي خطأ.

UnicodeDecodeWithOffsets.Options ثابت عام واستبدالChar (استبدال طويل)

حدود
استبدالChar نقطة رمز الحرف البديلة التي سيتم استخدامها بدلاً من أي تنسيق غير صالح في الإدخال عند `errors='replace'`. يمكن استخدام أي نقطة ترميز Unicode صالحة. القيمة الافتراضية هي أن حرف استبدال Unicode الافتراضي هو 0xFFFD أو U+65533.)

صف الإخراج العام <T> ينقسم ()

موتر int32 1D يحتوي على انقسامات الصف.