UnicodeDecode

کلاس نهایی عمومی UnicodeDecode

هر رشته را در "ورودی" به دنباله ای از نقاط کد یونیکد رمزگشایی می کند.

نقاط کد کاراکتر برای همه رشته‌ها با استفاده از یک بردار «char_values» بازگردانده می‌شوند و رشته‌ها به ترتیب ردیف اصلی به کاراکترها گسترش می‌یابند.

تانسور «row_splits» نشان می‌دهد که نقاط کد برای هر رشته ورودی از کجا شروع می‌شود و در تانسور «char_values» به پایان می‌رسد. به طور خاص، مقادیر رشته «i» (به ترتیب ردیف اصلی) در برش «[row_splits[i]:row_splits[i+1]]» ذخیره می‌شوند. بدین ترتیب:

  • «char_values[row_splits[i]+j]» نقطه کد یونیکد برای نویسه «j» در رشته «i» است (به ترتیب ردیف اصلی).
  • «row_splits[i+1] - row_splits[i]» تعداد کاراکترهای رشته «i» است (به ترتیب ردیف اصلی).

کلاس های تو در تو

کلاس UnicodeDecode.Options ویژگی های اختیاری برای UnicodeDecode

ثابت ها

رشته OP_NAME نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود

روش های عمومی

خروجی < TINT32 >
char Values ​​()
یک تانسور 1 بعدی int32 که حاوی کدهای رمزگشایی شده است.
استاتیک <T TNumber > UnicodeDecode <T> را گسترش می دهد
ایجاد ( دامنه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، Class<T> Tsplits، گزینه‌ها... گزینه‌ها)
روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecode جدید را بسته بندی می کند.
UnicodeDecode ثابت < TINT64 >
ایجاد (حوزه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، گزینه‌ها... گزینه‌ها)
روش کارخانه برای ایجاد کلاسی که عملیات UnicodeDecode جدید را با استفاده از انواع خروجی پیش‌فرض بسته بندی می‌کند.
استاتیک UnicodeDecode.Options
خطاها (خطاهای رشته ای)
استاتیک UnicodeDecode.Options
جایگزین کنترل کاراکترها (شخصیت های جایگزین بولی)
استاتیک UnicodeDecode.Options
جایگزینی Char (Long replacementChar)
خروجی <T>
rowSplits ()
یک تانسور 1 بعدی int32 حاوی ردیف شکافته می شود.

روش های ارثی

ثابت ها

رشته نهایی ثابت عمومی OP_NAME

نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود

مقدار ثابت: "UnicodeDecode"

روش های عمومی

خروجی عمومی < TINT32 > charValues ​​()

یک تانسور 1 بعدی int32 که حاوی کدهای رمزگشایی شده است.

عمومی استاتیک UnicodeDecode <T> ایجاد ( scope scope, Operand < TString > input, String inputEncoding, Class<T> Tsplits, Options... گزینه ها)

روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecode جدید را بسته بندی می کند.

مولفه های
محدوده محدوده فعلی
ورودی متنی که باید رمزگشایی شود. می تواند هر شکلی داشته باشد. توجه داشته باشید که خروجی به بردار مقادیر کاراکتر مسطح می شود.
inputEncoding رمزگذاری متن رشته های ورودی این هر یک از رمزگذاری های پشتیبانی شده توسط مبدل های الگوریتمی ICU ucnv است. مثال‌ها: "UTF-16"، "US ASCII"، "UTF-8"".
گزینه ها مقادیر ویژگی های اختیاری را حمل می کند
برمی گرداند
  • یک نمونه جدید از UnicodeDecode

عمومی استاتیک UnicodeDecode < TINT64 > ایجاد ( دامنه دامنه ، عملوند < TString > ورودی، رشته ورودیEncoding، گزینه‌ها... گزینه‌ها)

روش کارخانه برای ایجاد کلاسی که عملیات UnicodeDecode جدید را با استفاده از انواع خروجی پیش‌فرض بسته بندی می‌کند.

مولفه های
محدوده محدوده فعلی
ورودی متنی که باید رمزگشایی شود. می تواند هر شکلی داشته باشد. توجه داشته باشید که خروجی به بردار مقادیر کاراکتر مسطح می شود.
inputEncoding رمزگذاری متن رشته های ورودی این هر یک از رمزگذاری های پشتیبانی شده توسط مبدل های الگوریتمی ICU ucnv است. مثال‌ها: "UTF-16"، "US ASCII"، "UTF-8"".
گزینه ها مقادیر ویژگی های اختیاری را حمل می کند
برمی گرداند
  • یک نمونه جدید از UnicodeDecode

خطاهای عمومی استاتیک UnicodeDecode.Options (خطاهای رشته ای)

مولفه های
خطاها خط مشی رسیدگی به خطا زمانی که قالب بندی نامعتبر در ورودی یافت می شود. مقدار 'strict' باعث می شود که عملیات خطای InvalidArgument در هر قالب بندی ورودی نامعتبر ایجاد کند. مقدار «replace» (پیش‌فرض) باعث می‌شود که عملیات هر قالب‌بندی نامعتبر در ورودی را با کد «replacement_char» جایگزین کند. مقدار "نادیده گرفتن" باعث می شود عملیات از هر قالب بندی نامعتبر در ورودی صرف نظر کند و هیچ کاراکتر خروجی مربوطه تولید نکند.

عمومی استاتیک UnicodeDecode.Options replaceControlCharacters (Boolean replaceControlCharacters)

مولفه های
جایگزین کنترل کاراکترها آیا باید نویسه‌های کنترلی C0 (00-1F) را با «کاراکتر_جایگزینی» جایگزین کرد. پیش فرض نادرست است.

عمومی استاتیک UnicodeDecode.Options replacementChar (Long replacementChar)

مولفه های
جایگزینی Char نقطه کد کاراکتر جایگزین برای استفاده به جای هر قالب بندی نامعتبر در ورودی در هنگام `errors='replace'`. ممکن است از هر کد یونیکد معتبر استفاده شود. مقدار پیش‌فرض این است که کاراکتر جایگزین یونیکد پیش‌فرض 0xFFFD یا U+65533 است.)

خروجی عمومی <T> rowSplits ()

یک تانسور 1 بعدی int32 حاوی ردیف شکافته می شود.