API ที่เหลือ

นอกจาก gRPC API แล้ว TensorFlow ModelServer ยังรองรับ RESTful API อีกด้วย หน้านี้อธิบายจุดสิ้นสุด API เหล่านี้และ ตัวอย่าง การใช้งานตั้งแต่ต้นทางถึงปลายทาง

คำขอและการตอบกลับเป็นออบเจ็กต์ JSON องค์ประกอบของวัตถุนี้ขึ้นอยู่กับประเภทคำขอหรือกริยา ดูส่วนเฉพาะของ API ด้านล่างสำหรับรายละเอียด

ในกรณีที่เกิดข้อผิดพลาด API ทั้งหมดจะส่งคืนออบเจ็กต์ JSON ในเนื้อหาการตอบสนองโดยมี error เป็นคีย์และข้อความแสดงข้อผิดพลาดเป็นค่า:

{
  "error": <error message string>
}

API สถานะโมเดล

API นี้เป็นไปตาม ModelService.GetModelStatus gRPC API อย่างใกล้ชิด มันจะส่งคืนสถานะของโมเดลใน ModelServer

URL

GET http://host:port/v1/models/${MODEL_NAME}[/versions/${VERSION}|/labels/${LABEL}]

การใส่ /versions/${VERSION} หรือ /labels/${LABEL} เป็นทางเลือก หากละเว้นสถานะสำหรับทุกเวอร์ชันจะถูกส่งกลับในการตอบกลับ

รูปแบบการตอบกลับ

หากสำเร็จ จะส่งคืนการแสดง JSON ของ GetModelStatusResponse protobuf

API ข้อมูลเมตาของโมเดล

API นี้เป็นไปตาม PredictionService.GetModelMetadata gRPC API อย่างใกล้ชิด มันจะส่งคืนข้อมูลเมตาของโมเดลใน ModelServer

URL

GET http://host:port/v1/models/${MODEL_NAME}[/versions/${VERSION}|/labels/${LABEL}]/metadata

การใส่ /versions/${VERSION} หรือ /labels/${LABEL} เป็นทางเลือก หากละเว้นข้อมูลเมตาของโมเดลสำหรับเวอร์ชันล่าสุดจะถูกส่งกลับในการตอบกลับ

รูปแบบการตอบกลับ

หากสำเร็จ จะส่งคืนการแสดง JSON ของ GetModelMetadataResponse protobuf

จำแนกและถดถอย API

API นี้เป็นไปตามวิธี Classify และ Regress ของ PredictionService gRPC API อย่างใกล้ชิด

URL

POST http://host:port/v1/models/${MODEL_NAME}[/versions/${VERSION}|/labels/${LABEL}]:(classify|regress)

การใส่ /versions/${VERSION} หรือ /labels/${LABEL} เป็นทางเลือก หากละเว้นจะใช้เวอร์ชันล่าสุด

แบบคำขอ

เนื้อหาคำขอสำหรับ classify และ regress API ต้องเป็นออบเจ็กต์ JSON ที่มีรูปแบบดังนี้:

{
  // Optional: serving signature to use.
  // If unspecifed default serving signature is used.
  "signature_name": <string>,

  // Optional: Common context shared by all examples.
  // Features that appear here MUST NOT appear in examples (below).
  "context": {
    "<feature_name3>": <value>|<list>
    "<feature_name4>": <value>|<list>
  },

  // List of Example objects
  "examples": [
    {
      // Example 1
      "<feature_name1>": <value>|<list>,
      "<feature_name2>": <value>|<list>,
      ...
    },
    {
      // Example 2
      "<feature_name1>": <value>|<list>,
      "<feature_name2>": <value>|<list>,
      ...
    }
    ...
  ]
}

<value> คือหมายเลข JSON (ทั้งหมดหรือทศนิยม), สตริง JSON หรือออบเจ็กต์ JSON ที่แสดงข้อมูลไบนารี (ดูรายละเอียด ในหัวข้อการเข้ารหัสค่าไบนารี ด้านล่าง) <list> คือรายการของค่าดังกล่าว รูปแบบนี้คล้ายกับโปรโต ClassificationRequest และ RegressionRequest ของ gRPC ทั้งสองเวอร์ชันยอมรับรายการออบเจ็กต์ Example

รูปแบบการตอบกลับ

คำขอ classify ส่งคืนออบเจ็กต์ JSON ในเนื้อหาการตอบสนอง โดยมีรูปแบบดังนี้:

{
  "result": [
    // List of class label/score pairs for first Example (in request)
    [ [<label1>, <score1>], [<label2>, <score2>], ... ],

    // List of class label/score pairs for next Example (in request)
    [ [<label1>, <score1>], [<label2>, <score2>], ... ],
    ...
  ]
}

<label> คือสตริง (ซึ่งอาจเป็นสตริงว่าง "" หากโมเดลไม่มีป้ายกำกับที่เกี่ยวข้องกับคะแนน) <score> เป็นตัวเลขทศนิยม (จุดลอยตัว)

คำขอ regress ส่งคืนออบเจ็กต์ JSON ในเนื้อหาการตอบกลับ โดยมีรูปแบบดังนี้:

{
  // One regression value for each example in the request in the same order.
  "result": [ <value1>, <value2>, <value3>, ...]
}

<value> เป็นเลขทศนิยม

ผู้ใช้ gRPC API จะสังเกตเห็นความคล้ายคลึงของรูปแบบนี้กับโปรโต ClassificationResponse และ RegressionResponse

คาดการณ์ API

API นี้เป็นไปตาม PredictionService.Predict gRPC API อย่างใกล้ชิด

URL

POST http://host:port/v1/models/${MODEL_NAME}[/versions/${VERSION}|/labels/${LABEL}]:predict

การใส่ /versions/${VERSION} หรือ /labels/${LABEL} เป็นทางเลือก หากละเว้นจะใช้เวอร์ชันล่าสุด

แบบคำขอ

เนื้อหาคำขอสำหรับ predict API จะต้องอยู่ในรูปแบบออบเจ็กต์ JSON ดังต่อไปนี้:

{
  // (Optional) Serving signature to use.
  // If unspecifed default serving signature is used.
  "signature_name": <string>,

  // Input Tensors in row ("instances") or columnar ("inputs") format.
  // A request can have either of them but NOT both.
  "instances": <value>|<(nested)list>|<list-of-objects>
  "inputs": <value>|<(nested)list>|<object>
}

การระบุเทนเซอร์อินพุตในรูปแบบแถว

รูปแบบนี้คล้ายกับ PredictRequest proto ของ gRPC API และ CMLE Predict API ใช้รูปแบบนี้หากเทนเซอร์อินพุตที่มีชื่อทั้งหมดมี มิติที่ 0 เหมือนกัน หากไม่เป็นเช่นนั้น ให้ใช้รูปแบบเรียงเป็นแนวตามที่อธิบายไว้ด้านล่าง

ในรูปแบบแถว อินพุตจะถูกคีย์ไปยังคีย์ อินสแตนซ์ ในคำขอ JSON

เมื่อมีอินพุตที่มีชื่อเพียงรายการเดียว ให้ระบุค่าของ คีย์อินสแตนซ์ ให้เป็นค่าของอินพุต:

{
  // List of 3 scalar tensors.
  "instances": [ "foo", "bar", "baz" ]
}

{
  // List of 2 tensors each of [1, 2] shape
  "instances": [ [[1, 2]], [[3, 4]] ]
}

เทนเซอร์จะแสดงออกมาอย่างเป็นธรรมชาติในรูปแบบสัญกรณ์แบบซ้อน เนื่องจากไม่จำเป็นต้องทำให้รายการเรียบลงด้วยตนเอง

สำหรับอินพุตที่มีชื่อหลายรายการ แต่ละรายการคาดว่าจะเป็นออบเจ็กต์ที่มีคู่ชื่ออินพุต/ค่าเทนเซอร์ หนึ่งรายการสำหรับอินพุตที่มีชื่อแต่ละรายการ ตามตัวอย่าง ต่อไปนี้เป็นคำขอที่มีสองอินสแตนซ์ โดยแต่ละอินสแตนซ์มีชุดของเทนเซอร์อินพุตที่มีชื่อสามรายการ:

{
 "instances": [
   {
     "tag": "foo",
     "signal": [1, 2, 3, 4, 5],
     "sensor": [[1, 2], [3, 4]]
   },
   {
     "tag": "bar",
     "signal": [3, 4, 1, 2, 5]],
     "sensor": [[4, 5], [6, 8]]
   }
 ]
}

หมายเหตุ แต่ละอินพุตที่มีชื่อ ("แท็ก", "สัญญาณ", "เซ็นเซอร์") จะถือว่าโดยปริยายมีมิติที่ 0 เหมือนกัน ( สองรายการ ในตัวอย่างด้านบน เนื่องจากมีวัตถุ สอง รายการในรายการ อินสแตนซ์ ) หากคุณตั้งชื่ออินพุตที่มีมิติที่ 0 ต่างกัน ให้ใช้รูปแบบเรียงเป็นแนวตามที่อธิบายด้านล่าง

การระบุเทนเซอร์อินพุตในรูปแบบคอลัมน์

ใช้รูปแบบนี้เพื่อระบุเทนเซอร์อินพุตของคุณ หากอินพุตที่ระบุชื่อแต่ละรายการไม่มีมิติที่ 0 เหมือนกัน หรือคุณต้องการการแสดงที่กะทัดรัดมากขึ้น รูปแบบนี้คล้ายกับช่อง inputs ของคำขอ gRPC Predict

ในรูปแบบคอลัมน์ อินพุตจะถูกคีย์ไปยังคีย์ อินพุต ในคำขอ JSON

ค่าสำหรับคีย์ อินพุต อาจเป็นเทนเซอร์อินพุตตัวเดียวหรือแผนผังของชื่ออินพุตไปยังเทนเซอร์ก็ได้ (แสดงอยู่ในรูปแบบที่ซ้อนกันตามธรรมชาติ) อินพุตแต่ละรายการสามารถมีรูปร่างได้ตามใจชอบ และไม่จำเป็นต้องแชร์/มิติที่ 0 เดียวกัน (หรือที่เรียกว่าขนาดแบตช์) ตามที่กำหนดโดยรูปแบบแถวที่อธิบายไว้ข้างต้น

การแสดงคอลัมน์ของตัวอย่างก่อนหน้านี้มีดังนี้:

{
 "inputs": {
   "tag": ["foo", "bar"],
   "signal": [[1, 2, 3, 4, 5], [3, 4, 1, 2, 5]],
   "sensor": [[[1, 2], [3, 4]], [[4, 5], [6, 8]]]
 }
}

หมายเหตุ อินพุต เป็นออบเจ็กต์ JSON และไม่ใช่รายการเช่น อินสแตนซ์ (ใช้ในการแสดงแถว) นอกจากนี้ อินพุตที่มีชื่อทั้งหมดจะถูกระบุไว้ด้วยกัน แทนที่จะแยกออกเป็นแต่ละแถวที่ทำในรูปแบบแถวที่อธิบายไว้ก่อนหน้านี้ ทำให้การแสดงมีขนาดกะทัดรัด (แต่อาจอ่านได้น้อยกว่า)

รูปแบบการตอบกลับ

คำขอ predict ส่งคืนออบเจ็กต์ JSON ในเนื้อหาการตอบสนอง

คำขอใน รูปแบบแถว มีรูปแบบการตอบสนองดังนี้:

{
  "predictions": <value>|<(nested)list>|<list-of-objects>
}

หากเอาต์พุตของโมเดลมีเมตริกซ์ที่มีชื่อเพียงรายการเดียว เราจะละเว้นแมปชื่อและ predictions คีย์ไปยังรายการสเกลาร์หรือค่ารายการ หากโมเดลส่งออกเทนเซอร์ที่มีชื่อหลายรายการ เราจะส่งออกรายการออบเจ็กต์แทน ซึ่งคล้ายกับคำขอในรูปแบบแถวที่กล่าวถึงข้างต้น

คำขอใน รูปแบบเรียงเป็นแนว มีรูปแบบการตอบสนองดังนี้:

{
  "outputs": <value>|<(nested)list>|<object>
}

หากเอาต์พุตของโมเดลมีเทนเซอร์ที่มีชื่อเพียงตัวเดียว เราจะละชื่อและ outputs คีย์แมปไปยังรายการสเกลาร์หรือค่ารายการ หากโมเดลส่งออกเทนเซอร์ที่มีชื่อหลายรายการ เราจะส่งออกวัตถุแทน แต่ละคีย์ของวัตถุนี้สอดคล้องกับเทนเซอร์เอาท์พุตที่มีชื่อ รูปแบบจะคล้ายกับคำขอในรูปแบบคอลัมน์ที่กล่าวถึงข้างต้น

เอาต์พุตของค่าไบนารี

TensorFlow ไม่แยกความแตกต่างระหว่างสตริงที่ไม่ใช่ไบนารีและสตริงไบนารี ทั้งหมดเป็นประเภท DT_STRING เทนเซอร์ที่มีชื่อซึ่งมี _bytes เป็นส่วนต่อท้ายในชื่อจะถือว่ามีค่าไบนารี ค่าดังกล่าวได้รับการเข้ารหัสแตกต่างออกไปตามที่อธิบายไว้ในส่วน การเข้ารหัสค่าไบนารี ด้านล่าง

การทำแผนที่ JSON

RESTful API รองรับการเข้ารหัส Canonical ใน JSON ทำให้แชร์ข้อมูลระหว่างระบบได้ง่ายขึ้น สำหรับประเภทที่รองรับ การเข้ารหัสจะอธิบายเป็นรายประเภทในตารางด้านล่าง ประเภทที่ไม่อยู่ในรายการด้านล่างแสดงว่าไม่รองรับ

ประเภทข้อมูล TF ค่า JSON ตัวอย่าง JSON หมายเหตุ
DT_BOOL จริงเท็จ จริงเท็จ
DT_STRING เชือก "สวัสดีชาวโลก!" ถ้า DT_STRING แทนไบต์ไบนารี (เช่น ไบต์รูปภาพต่อเนื่องหรือ protobuf) ให้เข้ารหัสสิ่งเหล่านี้ใน Base64 ดู การเข้ารหัสค่าไบนารี สำหรับข้อมูลเพิ่มเติม
DT_INT8, DT_UINT8, DT_INT16, DT_INT32, DT_UINT32, DT_INT64, DT_UINT64 ตัวเลข 1, -10, 0 ค่า JSON จะเป็นเลขทศนิยม
DT_FLOAT, DT_สองเท่า ตัวเลข 1.1, -10.0, 0, NaN , Infinity ค่า JSON จะเป็นตัวเลขหรือหนึ่งในค่าโทเค็นพิเศษ - NaN , Infinity และ -Infinity ดู ความสอดคล้องกับ JSON สำหรับข้อมูลเพิ่มเติม สัญกรณ์เลขยกกำลังก็เป็นที่ยอมรับเช่นกัน

ความแม่นยำของจุดลอยตัว

JSON มีประเภทข้อมูลตัวเลขเดียว ดังนั้นจึงเป็นไปได้ที่จะระบุค่าสำหรับอินพุตที่ส่งผลให้สูญเสียความแม่นยำ ตัวอย่างเช่น หากอินพุต x เป็นประเภทข้อมูล float และอินพุต {"x": 1435774380} ถูกส่งไปยังโมเดลที่ทำงานบนฮาร์ดแวร์ตามมาตรฐานจุดลอยตัว IEEE 754 (เช่น Intel หรือ AMD) จากนั้นค่าจะ ถูกแปลงอย่างเงียบ ๆ โดยฮาร์ดแวร์ที่อยู่ด้านล่างเป็น 1435774336 เนื่องจาก 1435774380 ไม่สามารถแสดงเป็นตัวเลขทศนิยม 32 บิตได้อย่างแน่นอน โดยทั่วไป ข้อมูลในการเสิร์ฟควรเป็นการกระจายแบบเดียวกับการฝึก ดังนั้นโดยทั่วไปแล้วจะไม่มีปัญหาเนื่องจาก Conversion เดียวกันนี้เกิดขึ้นในเวลาฝึก อย่างไรก็ตาม ในกรณีที่จำเป็นต้องมีความแม่นยำเต็มที่ ตรวจสอบให้แน่ใจว่าใช้ประเภทข้อมูลพื้นฐานในแบบจำลองของคุณที่สามารถรองรับความแม่นยำที่ต้องการ และ/หรือพิจารณาการตรวจสอบฝั่งไคลเอ็นต์

การเข้ารหัสค่าไบนารี

JSON ใช้การเข้ารหัส UTF-8 หากคุณมีคุณลักษณะอินพุตหรือค่าเทนเซอร์ที่จำเป็นต้องเป็นไบนารี่ (เช่น ไบต์ของรูปภาพ) คุณ ต้อง เข้ารหัส Base64 ข้อมูลและสรุปไว้ในออบเจ็กต์ JSON โดยมีคีย์ b64 เป็นดังนี้:

{ "b64": <base64 encoded string> }

คุณสามารถระบุวัตถุนี้เป็นค่าสำหรับคุณลักษณะอินพุตหรือเทนเซอร์ได้ รูปแบบเดียวกันนี้ใช้ในการเข้ารหัสการตอบสนองเอาต์พุตเช่นกัน

คำขอจัดหมวดหมู่พร้อม image (ข้อมูลไบนารี) และคุณสมบัติ caption แสดงอยู่ด้านล่าง:

{
  "signature_name": "classify_objects",
  "examples": [
    {
      "image": { "b64": "aW1hZ2UgYnl0ZXM=" },
      "caption": "seaside"
    },
    {
      "image": { "b64": "YXdlc29tZSBpbWFnZSBieXRlcw==" },
      "caption": "mountains"
    }
  ]
}

ความสอดคล้องของ JSON

ค่าคุณลักษณะหรือค่าเทนเซอร์หลายค่าเป็นตัวเลขทศนิยม นอกเหนือจากค่าจำกัด (เช่น 3.14, 1.0 เป็นต้น) สิ่งเหล่านี้สามารถมีค่า NaN และค่าไม่สิ้นสุด ( Infinity และ -Infinity ) น่าเสียดายที่ข้อกำหนด JSON ( RFC 7159 ) ไม่ รู้จักค่าเหล่านี้ (แม้ว่าข้อกำหนด JavaScript จะยอมรับก็ตาม)

REST API ที่อธิบายไว้ในหน้านี้อนุญาตให้ออบเจ็กต์ JSON คำขอ/ตอบกลับมีค่าดังกล่าว นี่หมายความว่าคำขอดังต่อไปนี้ถูกต้อง:

{
  "example": [
    {
      "sensor_readings": [ 1.0, -3.14, Nan, Infinity ]
    }
  ]
}

ตัวแยกวิเคราะห์ JSON ที่เป็นไปตามมาตรฐาน (เข้มงวด) จะปฏิเสธสิ่งนี้โดยมีข้อผิดพลาดในการแยกวิเคราะห์ (เนื่องจากโทเค็น NaN และ Infinity ผสมกับตัวเลขจริง) หากต้องการจัดการคำขอ/ตอบกลับในโค้ดของคุณอย่างถูกต้อง ให้ใช้ตัวแยกวิเคราะห์ JSON ที่รองรับโทเค็นเหล่านี้

โทเค็น NaN , Infinity , -Infinity ได้รับการยอมรับโดย proto3 , โมดูล Python JSON และภาษา JavaScript

ตัวอย่าง

เราสามารถใช้โมเดลของเล่น half_plus_three เพื่อดูการทำงานของ REST API

เริ่มต้น ModelServer ด้วยจุดสิ้นสุด REST API

ดาวน์โหลดโมเดล half_plus_three จาก ที่เก็บ git :

$ mkdir -p /tmp/tfserving
$ cd /tmp/tfserving
$ git clone --depth=1 https://github.com/tensorflow/serving

เราจะใช้ Docker เพื่อรัน ModelServer หากคุณต้องการติดตั้ง ModelServer แบบเนทิฟบนระบบของคุณ ให้ทำตาม คำแนะนำการตั้งค่า เพื่อติดตั้งแทน และเริ่ม ModelServer ด้วยตัวเลือก --rest_api_port เพื่อส่งออกตำแหน่งข้อมูล REST API (ไม่จำเป็นเมื่อใช้ Docker)

$ cd /tmp/tfserving
$ docker pull tensorflow/serving:latest
$ docker run --rm -p 8501:8501 \
    --mount type=bind,source=$(pwd),target=$(pwd) \
    -e MODEL_BASE_PATH=$(pwd)/serving/tensorflow_serving/servables/tensorflow/testdata \
    -e MODEL_NAME=saved_model_half_plus_three -t tensorflow/serving:latest
...
.... Exporting HTTP/REST API at:localhost:8501 ...

ทำการเรียก REST API ไปที่ ModelServer

ในเทอร์มินัลอื่น ให้ใช้เครื่องมือ curl เพื่อทำการเรียก REST API

รับสถานะของโมเดลดังนี้:

$ curl http://localhost:8501/v1/models/saved_model_half_plus_three
{
 "model_version_status": [
  {
   "version": "123",
   "state": "AVAILABLE",
   "status": {
    "error_code": "OK",
    "error_message": ""
   }
  }
 ]
}

การโทร predict จะมีลักษณะดังนี้:

$ curl -d '{"instances": [1.0,2.0,5.0]}' -X POST http://localhost:8501/v1/models/saved_model_half_plus_three:predict
{
    "predictions": [3.5, 4.0, 5.5]
}

และการเรียก regress มีลักษณะดังนี้:

$ curl -d '{"signature_name": "tensorflow/serving/regress", "examples": [{"x": 1.0}, {"x": 2.0}]}' \
  -X POST http://localhost:8501/v1/models/saved_model_half_plus_three:regress
{
    "results": [3.5, 4.0]
}

หมายเหตุ regress มีอยู่ในชื่อลายเซ็นที่ไม่ใช่ค่าเริ่มต้น และต้องระบุอย่างชัดเจน URL คำขอหรือเนื้อหาไม่ถูกต้องส่งคืนสถานะข้อผิดพลาด HTTP

$ curl -i -d '{"instances": [1.0,5.0]}' -X POST http://localhost:8501/v1/models/half:predict
HTTP/1.1 404 Not Found
Content-Type: application/json
Date: Wed, 06 Jun 2018 23:20:12 GMT
Content-Length: 65

{ "error": "Servable not found for request: Latest(half)" }
$