Руководство по обработке текста TensorFlow документирует библиотеки и рабочие процессы для обработки естественного языка (NLP) и знакомит с важными концепциями работы с текстом.
КерасНЛП
KerasNLP — это высокоуровневая библиотека обработки естественного языка (NLP), которая включает в себя все последние модели на основе Transformer, а также утилиты токенизации более низкого уровня. Это рекомендуемое решение для большинства случаев использования НЛП.
- Начало работы с KerasNLP : Изучите KerasNLP, выполняя анализ настроений на прогрессивных уровнях сложности, от использования предварительно обученной модели до создания собственного Transformer с нуля.
tf.strings
Модуль tf.strings
предоставляет операции для работы со строковыми тензорами.
- Строки Unicode : представляют строки Unicode в TensorFlow и манипулируют ими, используя Unicode-эквиваленты стандартных строковых операций.
Текст TensorFlow
Если вам нужен доступ к инструментам обработки текста более низкого уровня, вы можете использовать TensorFlow Text. TensorFlow Text предоставляет набор операций и библиотек, которые помогут вам работать с вводом в текстовой форме, такой как необработанные текстовые строки или документы.
- Введение в TensorFlow Text : узнайте, как установить TensorFlow Text или собрать его из исходного кода.
- Преобразование текстовых операторов TensorFlow в TensorFlow Lite : преобразование текстовой модели TensorFlow в TensorFlow Lite для развертывания на мобильных, встроенных устройствах и устройствах IoT.
Предварительная обработка
- Предварительная обработка BERT с помощью TF Text : используйте операции предварительной обработки TensorFlow Text для преобразования текстовых данных во входные данные для BERT.
- Токенизация с помощью TF Text : ознакомьтесь с вариантами токенизации, предоставляемыми TensorFlow Text. Узнайте, когда вы можете предпочесть один вариант другому и как эти токенизаторы вызываются из вашей модели.
- Токенизаторы подслов : создайте словарь подслов из набора данных и используйте его для создания
text.BertTokenizer
из словаря.
Модели TensorFlow — НЛП
Библиотека TensorFlow Models — NLP предоставляет примитивы Keras, которые можно собирать в модели на основе Transformer, и классы каркасов, которые позволяют легко экспериментировать с новыми архитектурами.
- Введение в библиотеку TensorFlow Models NLP : создавайте модели на основе Transformer для общих задач NLP, включая предварительное обучение, маркировку диапазонов и классификацию, используя стандартные блоки из библиотеки моделирования NLP .
- Настройка кодировщика Transformer : Настройте
tfm.nlp.networks.EncoderScaffold
, двунаправленный сетевой каркас кодировщика на основе Transformer, для использования новых сетевых архитектур.