هر رشته را در "ورودی" به دنباله ای از نقاط کد یونیکد رمزگشایی می کند.
نقاط کد کاراکتر برای همه رشتهها با استفاده از یک بردار «char_values» بازگردانده میشوند و رشتهها به ترتیب ردیف اصلی به کاراکترها گسترش مییابند.
تانسور «row_splits» نشان میدهد که نقاط کد برای هر رشته ورودی از کجا شروع میشود و در تانسور «char_values» به پایان میرسد. به طور خاص، مقادیر رشته «i» (به ترتیب ردیف اصلی) در برش «[row_splits[i]:row_splits[i+1]]» ذخیره میشوند. بدین ترتیب:
- «char_values[row_splits[i]+j]» نقطه کد یونیکد برای نویسه «j» در رشته «i» است (به ترتیب ردیف اصلی).
- «row_splits[i+1] - row_splits[i]» تعداد کاراکترهای رشته «i» است (به ترتیب ردیف اصلی).
کلاس های تو در تو
کلاس | UnicodeDecode.Options | ویژگی های اختیاری برای UnicodeDecode |
ثابت ها
رشته | OP_NAME | نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود |
روش های عمومی
خروجی < TINT32 > | char Values () یک تانسور 1 بعدی int32 که حاوی کدهای رمزگشایی شده است. |
استاتیک <T TNumber > UnicodeDecode <T> را گسترش می دهد | ایجاد ( دامنه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، Class<T> Tsplits، گزینهها... گزینهها) روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecode جدید را بسته بندی می کند. |
UnicodeDecode ثابت < TINT64 > | ایجاد (حوزه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، گزینهها... گزینهها) روش کارخانه برای ایجاد کلاسی که عملیات UnicodeDecode جدید را با استفاده از انواع خروجی پیشفرض بسته بندی میکند. |
استاتیک UnicodeDecode.Options | خطاها (خطاهای رشته ای) |
استاتیک UnicodeDecode.Options | جایگزین کنترل کاراکترها (شخصیت های جایگزین بولی) |
استاتیک UnicodeDecode.Options | جایگزینی Char (Long replacementChar) |
خروجی <T> | rowSplits () یک تانسور 1 بعدی int32 حاوی ردیف شکافته می شود. |
روش های ارثی
ثابت ها
رشته نهایی ثابت عمومی OP_NAME
نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود
روش های عمومی
عمومی استاتیک UnicodeDecode <T> ایجاد ( scope scope, Operand < TString > input, String inputEncoding, Class<T> Tsplits, Options... گزینه ها)
روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecode جدید را بسته بندی می کند.
مولفه های
محدوده | محدوده فعلی |
---|---|
ورودی | متنی که باید رمزگشایی شود. می تواند هر شکلی داشته باشد. توجه داشته باشید که خروجی به بردار مقادیر کاراکتر مسطح می شود. |
inputEncoding | رمزگذاری متن رشته های ورودی این هر یک از رمزگذاری های پشتیبانی شده توسط مبدل های الگوریتمی ICU ucnv است. مثالها: "UTF-16"، "US ASCII"، "UTF-8"". |
گزینه ها | مقادیر ویژگی های اختیاری را حمل می کند |
برمی گرداند
- یک نمونه جدید از UnicodeDecode
عمومی استاتیک UnicodeDecode < TINT64 > ایجاد ( دامنه دامنه ، عملوند < TString > ورودی، رشته ورودیEncoding، گزینهها... گزینهها)
روش کارخانه برای ایجاد کلاسی که عملیات UnicodeDecode جدید را با استفاده از انواع خروجی پیشفرض بسته بندی میکند.
مولفه های
محدوده | محدوده فعلی |
---|---|
ورودی | متنی که باید رمزگشایی شود. می تواند هر شکلی داشته باشد. توجه داشته باشید که خروجی به بردار مقادیر کاراکتر مسطح می شود. |
inputEncoding | رمزگذاری متن رشته های ورودی این هر یک از رمزگذاری های پشتیبانی شده توسط مبدل های الگوریتمی ICU ucnv است. مثالها: "UTF-16"، "US ASCII"، "UTF-8"". |
گزینه ها | مقادیر ویژگی های اختیاری را حمل می کند |
برمی گرداند
- یک نمونه جدید از UnicodeDecode
خطاهای عمومی استاتیک UnicodeDecode.Options (خطاهای رشته ای)
مولفه های
خطاها | خط مشی رسیدگی به خطا زمانی که قالب بندی نامعتبر در ورودی یافت می شود. مقدار 'strict' باعث می شود که عملیات خطای InvalidArgument در هر قالب بندی ورودی نامعتبر ایجاد کند. مقدار «replace» (پیشفرض) باعث میشود که عملیات هر قالببندی نامعتبر در ورودی را با کد «replacement_char» جایگزین کند. مقدار "نادیده گرفتن" باعث می شود عملیات از هر قالب بندی نامعتبر در ورودی صرف نظر کند و هیچ کاراکتر خروجی مربوطه تولید نکند. |
---|
عمومی استاتیک UnicodeDecode.Options replaceControlCharacters (Boolean replaceControlCharacters)
مولفه های
جایگزین کنترل کاراکترها | آیا باید نویسههای کنترلی C0 (00-1F) را با «کاراکتر_جایگزینی» جایگزین کرد. پیش فرض نادرست است. |
---|
عمومی استاتیک UnicodeDecode.Options replacementChar (Long replacementChar)
مولفه های
جایگزینی Char | نقطه کد کاراکتر جایگزین برای استفاده به جای هر قالب بندی نامعتبر در ورودی در هنگام `errors='replace'`. ممکن است از هر کد یونیکد معتبر استفاده شود. مقدار پیشفرض این است که کاراکتر جایگزین یونیکد پیشفرض 0xFFFD یا U+65533 است.) |
---|