Hướng dẫn xử lý văn bản TensorFlow

Hướng dẫn xử lý văn bản TensorFlow ghi lại các thư viện và quy trình công việc để xử lý ngôn ngữ tự nhiên (NLP) và giới thiệu các khái niệm quan trọng để làm việc với văn bản.

Máy ảnhNLP

KerasNLP là thư viện xử lý ngôn ngữ tự nhiên (NLP) cấp cao bao gồm tất cả các mô hình dựa trên Transformer mới nhất cũng như các tiện ích mã thông báo cấp thấp hơn. Đó là giải pháp được đề xuất cho hầu hết các trường hợp sử dụng NLP.

  • Bắt đầu với KerasNLP : Tìm hiểu KerasNLP bằng cách thực hiện phân tích tình cảm ở mức độ phức tạp tăng dần, từ việc sử dụng mô hình được đào tạo trước đến xây dựng Transformer của riêng bạn từ đầu.

tf.strings

Mô-đun tf.strings cung cấp các thao tác để làm việc với Tensors chuỗi.

  • Chuỗi Unicode : Trình bày các chuỗi Unicode trong TensorFlow và thao tác với chúng bằng cách sử dụng các giá trị tương đương Unicode của ops chuỗi tiêu chuẩn.

Văn bản TensorFlow

Nếu bạn cần quyền truy cập vào các công cụ xử lý văn bản cấp thấp hơn, bạn có thể sử dụng Văn bản TensorFlow. TensorFlow Text cung cấp một bộ sưu tập các op và thư viện để giúp bạn làm việc với đầu vào ở dạng văn bản, chẳng hạn như chuỗi văn bản thô hoặc tài liệu.

Sơ chế

  • Tiền xử lý BERT với văn bản TF : Sử dụng ops tiền xử lý văn bản TensorFlow để chuyển đổi dữ liệu văn bản thành đầu vào cho BERT.
  • Mã hóa bằng Văn bản TF : Hiểu các tùy chọn mã hóa do Văn bản TensorFlow cung cấp. Tìm hiểu xem khi nào bạn có thể muốn sử dụng tùy chọn này thay vì tùy chọn khác và cách các mã thông báo này được gọi từ bên trong mô hình của bạn.
  • Trình mã thông báo từ phụ : Tạo từ vựng từ phụ từ tập dữ liệu và sử dụng nó để tạo text.BertTokenizer từ từ vựng.

Mô hình TensorFlow – NLP

Thư viện Mô hình TensorFlow - NLP cung cấp các nguyên mẫu Keras có thể được lắp ráp thành các mô hình dựa trên Máy biến áp và các lớp giàn giáo cho phép thử nghiệm dễ dàng với các kiến ​​trúc mới.