คู่มือการประมวลผลข้อความ TensorFlow

คู่มือการประมวลผลข้อความ TensorFlow จัดทำเอกสารไลบรารีและเวิร์กโฟลว์สำหรับการประมวลผลภาษาธรรมชาติ (NLP) และแนะนำแนวคิดที่สำคัญสำหรับการทำงานกับข้อความ

KerasNLP

KerasNLP เป็นไลบรารีการประมวลผลภาษาธรรมชาติระดับสูง (NLP) ที่มีโมเดลที่ใช้ Transformer ล่าสุดทั้งหมด รวมทั้งยูทิลิตีโทเค็นระดับล่าง เป็นวิธีแก้ปัญหาที่แนะนำสำหรับกรณีการใช้งาน NLP ส่วนใหญ่

  • เริ่มต้นใช้งาน KerasNLP : เรียนรู้ KerasNLP โดยทำการวิเคราะห์ความรู้สึกที่ระดับความซับซ้อนที่ก้าวหน้า ตั้งแต่การใช้แบบจำลองที่ได้รับการฝึกอบรมล่วงหน้าไปจนถึงการสร้าง Transformer ของคุณเองตั้งแต่เริ่มต้น

tf.strings

โมดูล tf.strings มีการดำเนินการสำหรับการทำงานกับสตริงเทนเซอร์

  • สตริง Unicode : แสดงสตริง Unicode ใน TensorFlow และจัดการโดยใช้ Unicode ที่เทียบเท่ากับ ops สตริงมาตรฐาน

ข้อความ TensorFlow

หากคุณต้องการเข้าถึงเครื่องมือประมวลผลข้อความระดับล่าง คุณสามารถใช้ TensorFlow Text ได้ TensorFlow Text มอบคอลเล็กชันของ ops และไลบรารีเพื่อช่วยให้คุณทำงานกับอินพุตในรูปแบบข้อความ เช่น สตริงข้อความดิบหรือเอกสาร

การประมวลผลล่วงหน้า

  • การประมวลผลล่วงหน้าของ BERT ด้วย TF Text : ใช้การประมวลผลล่วงหน้าของ TensorFlow Text เพื่อแปลงข้อมูลข้อความเป็นอินพุตสำหรับ BERT
  • โทเค็นด้วย TF Text : ทำความเข้าใจตัวเลือกโทเค็นที่ TensorFlow Text จัดเตรียมไว้ให้ เรียนรู้ว่าเมื่อใดที่คุณอาจต้องการใช้ตัวเลือกหนึ่งเหนืออีกตัวเลือกหนึ่ง และวิธีเรียกโทเค็นไนเซอร์เหล่านี้จากภายในโมเดลของคุณ
  • Subword tokenizer : สร้างคำศัพท์ย่อยจากชุดข้อมูล และใช้สร้าง text.BertTokenizer จากคำศัพท์

โมเดล TensorFlow – NLP

ไลบรารี TensorFlow Models - NLP มี Keras ดั้งเดิมที่สามารถประกอบเป็นโมเดลที่ใช้ Transformer และคลาสนั่งร้านที่ช่วยให้ทำการทดลองกับสถาปัตยกรรมใหม่ๆ ได้ง่าย