0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分享TensorFlow Lite應(yīng)用案例

Tensorflowers ? 來源:未知 ? 作者:工程師郭婷 ? 2018-07-26 10:37 ? 次閱讀

從2016年開始,Kika 技術(shù)團隊一直致力于 AI 技術(shù)在移動端落地,尤其是在 keyboard 輸入法引擎做了很多算法與工程上的探索工作。2017 年 5 月,Kika 技術(shù)團隊基于 TensorFlow Mobile 研發(fā)了 Kika AI Engine,將其應(yīng)用于 Kika 的全系輸入法產(chǎn)品中。2017 年 11 月,Google 發(fā)布 TensorFlow Lite (TF Lite) 后,Kika 技術(shù)團隊迅速進行了跟進,并于 2018 年 1 月成功地開發(fā)了基于 TF Lite 全新一代的 Kika AI Engine,同時進行了線上產(chǎn)品的更新。

1、移動端深度學習的技術(shù)選型

輸入法引擎的技術(shù)要求包括:快、準、全。需要在客戶端環(huán)境下,根據(jù)用戶輸入的上文內(nèi)容以及當前鍵入的鍵碼,實時進行『預測』。預測的內(nèi)容包括:單詞,詞組,emoji 等等一切可能通過輸入法發(fā)送的內(nèi)容。從算法的原理上來講,這是一個典型的 RNN 應(yīng)用場景。

輸入法引擎預測效果圖

作為輸入法這樣的一個重度使用的工具類 APP,在移動端做輕量化部署非常重要,具體包括以下四個方面:模型壓縮、快速的響應(yīng)時間、較低的內(nèi)存占用以及 較小的 so 庫(shared object,共享庫)大小等。

在 Kika 將 TF Mobile 部署到移動端的過程中,除了 CPU 占用偏高,還有由于 TF Mobile 內(nèi)存管理與內(nèi)存保護設(shè)計的問題,導致:

內(nèi)存保護機制不完善,在實際內(nèi)存不是很充足的情況(尤其對于部分低端機型以及在內(nèi)存消耗較大的應(yīng)用,如大型手游中彈起輸入法),容易引發(fā)內(nèi)存非法操作。

內(nèi)存大小控制機制存在一定的問題,例如模型本身在計算時只有 20MB,但加載到內(nèi)存之后的運行時峰值可能會飆升 40 到 70MB。

TF Lite 對于 CNN 類的應(yīng)用支持較好,目前對于 RNN 的支持尚存在 op 支持不足的缺點。但是考慮到內(nèi)存消耗和性能方面的提升,Kika 仍然建議投入一部分的研發(fā)力量,在移動端考慮采用 TF Lite 做為基于 RNN 深度學習模型的 inference 部署方案。

2. TensorFlow Lite 對 RNN/LSTM based 模型的原生支持情況

相對于 CNN 而言,TF Lite 對于 RNN/LSTM 的支持程度稍顯不足。目前的情況是,RNN 相關(guān)的基本元素的 op 目前都已經(jīng)支持,最近也剛剛支持了 LSTM,但遺憾的是 beamSearch 支持暫時還沒有完成。

不支持的 op 主要集中有兩大類情況:

包括控制流 (control flow) 的 op

相對于 TF mobile,TF Lite 的部分 op 只支持最簡單的 case

目前的一個好的消息就是 TensorFlow 項目組一直在持續(xù)的推進對 RNN 系列的支持。

3. 如何應(yīng)對 op 缺失的情況

對于移動端用 TF Lite 部署最友好的開發(fā)姿勢是在設(shè)計模型之處就了解當前的 TF Lite版本哪些 op 是缺失或者功能不完整的,然后在模型設(shè)計過程中:

盡量避免使用這些 TF Lite 不支持的 op;

對于不得不使用的情況,也需要結(jié)合具體的業(yè)務(wù)邏輯,優(yōu)化設(shè)計,使得在移動端部署的二次開發(fā)的工作量盡可能的小。

以下是應(yīng)對 op 缺失的一些常見做法。

組合

最為常見的處理方式,例如在早期的 TF Lite 版本中,tf.tile 和 tf.range 都不支持,這個時候建議采用 broadcast_add 來組合代替實現(xiàn)。

補充

TF mobile 的 op 相當于完整版的 TensorFlow,于此相比,TF Lite 缺失最嚴重的是包含控制流的部分。例如 seq2seq 模型中常用的 beam search。

補充的方式有兩種:

直接開發(fā)一個全新的 op;

在 TF Lite 之外的上層 api 中實現(xiàn) (此時可能需要拆解模型)。

兩種方式各有優(yōu)劣,具體的需要根據(jù)功能的復雜度和業(yè)務(wù)邏輯決定。

模型拆分

1) 原因

需要模型拆分的原因一般有 3 個:

訓練時用流程控制的方式(如 batch)一次性跑完多個樣本,但在 Inference 的過程中,需要用到單步運行;

某些 op 不支持,需要在 TF Lite 的上層『手動』實現(xiàn),可能需要將原有的模型拆分為若干的子模型 (sub graph);

有部分的冗余,但是重新設(shè)計 graph 再訓練的時間代價較大。

2) 方法與坑

以下通過一個實例來描述如何進行模型的拆分。

將 variable 共享給不同的 op,甚至于不同的 sub graph,通用做法是 采用 `placeholder` 的方式將輸入輸出分開,然后在導出 freeze graph 的時候用 `tf.graph_util.convert_variables_to_constants` 只抓取需要的部分。

代碼實例:

python

vars = tf.get_variable(。..)

inputs = tf.placeholder(‘inputids’, shape=[BATCH, None], 。..)

embs = tf.nn.embedding_lookup(vars, inputs)

cells = tf.nn.rnn_cell.MultiRNNCell(。..)

output, state = tf.nn.dynamic_rnn(cells, embs, 。..)

實際整合進入客戶端產(chǎn)品 inference 的時候,可能存在的坑:

可能不需要 `BATCH`,雖然可以每次都指定 batch 為 1,但對于 TF 來說,

batch = 1 跟直接沒有這個維度的模型結(jié)構(gòu)并不同;

如果都需要單步運行的話,`dynamic_rnn` 也不需要,而且這里有大量流程控制 (最新的 TF Lite 開始逐步的對 dynamic rnn 進行了支持)。

對于后端的模型算法工作者來說,寫出上述的訓練代碼是一件非常自然的事情。如果我們既想保持后端代碼的普適和自然度,又想要快速實現(xiàn)能夠在客戶端部署,需要作出如下的事情:

python

prod_inputs = tf.placeholder(‘prod_inputids’, shape=[None], 。..)

prod_embs = tf.nn.embedding_lookup(vars, prod_inputs)

prod_output, prod_state = cells(prod_embs, 。..)

其中有 3 個需要被注意的地方:

RNN cell 本身可以被調(diào)用。同一個 cell 如果想讓多個地方同時調(diào)用,內(nèi)部 variable 只會產(chǎn)生一次。

一般聲明的 variables 如果是用 `tf.get_variable()` 出來的,直接用即可。

另外一個方式是可以考慮采用 `tf.variable_scope(reuse=True)` 的方式重寫 inference 的過程,以解耦 training 和 inference 的代碼,代價就是整個 graph 會偏大,但是優(yōu)點使得進行 sub graph 切分的工作變得更加簡單。

python

with tf.variable_scope(‘my_network’):

vars = tf.get_variable(。..)

inputs = tf.placeholder(‘inputids’, shape=[BATCH, None], 。..)

embs = tf.nn.embedding_lookup(vars, inputs)

cells = tf.nn.rnn_cell.MultiRNNCell(。..)

output, state = tf.nn.dynamic_rnn(cells, embs, 。..)

# 。..

with tf.variable_scope(‘my_network’, reuse=True):

vars = tf.get_variable(。..)

prod_inputs = tf.placeholder(‘prod_inputids’, shape=[None], 。..)

prod_embs = tf.nn.embedding_lookup(vars, prod_inputs)

prod_cells = tf.nn.rnn_cell.MultiRNNCell(。..)

prod_output, prod_state = prod_cells(prod_embs, 。..)

在進行這些『切分』操作的時候需要注意到幾個問題:

1. `tf.Variable()` 和 `tf.get_variable()`

盡量用后者,因為`tf.Variable()`對 variable scope 無效。

2. 部分 op 有隱藏的 optional argument

有些 op 有 optional argument,如果不指定的話,可能會自動引入一些額外的 op 來代入默認值。這樣偶爾會引入一些 TF Lite 不支持的 op。例如:

python

softmax = tf.nn.softmax(logits)

其實有個參數(shù) axis 默認是 -1 ,也就是最后一個維度。不寫明的話 TF 會『默認』插入一些 op 在運行時幫你計算:

python

axis = tf.sub(tf.shape(logits), tf.constant(1))

`tf.shape()` 在 TF Lite 一直到最近才支持,而且只要調(diào)用的時候直接寫明,并不需要在運行時算:

python

# logits has shape [1, VOCABS]

softmax = tf.nn.softmax(logits, axis=1)

這類 op 暫時沒有系統(tǒng)性的方式可以辨認 (spec 上沒寫),只能等到試錯的時候才會被發(fā)現(xiàn)。

因此,在實際操作的時候?qū)τ谀J參數(shù),需要特別的注意。

4. toolchain -- 模型轉(zhuǎn)換與整合

拆完以后的模型仍然是一個 protobuffer 格式,要先把它轉(zhuǎn)換成 tflite 的 flatbuffers 格式才能用。

轉(zhuǎn)換工具可以直接采用 TF 官方的轉(zhuǎn)換工具。比如在kika 我們的 toolchain 是這樣的:

bash

git clone -b tflite https://github.com/KikaTech/tensorflow.git

cd tensorflow/kika

bazel build -s -c dbg

@org_tensorflow//tensorflow/contrib/lite/toco:toco

//graph_tools/python:tf2lite

//graph_tools/python:tfecho

//graph_tools/python:quantize

第一個就是模型轉(zhuǎn)換工具 toco,建議采用獨立的命令行版本,而不是采用 python API,目前對于 OSX 這樣的系統(tǒng),會有一些編譯上的問題,同時編譯的耗時也比較長。

第二個是一個包含 toco 的小啟動器,因為 toco 從命令列呼叫起來的話要填的參數(shù)比較多,所以這個啟動器會使用 tensorflow 查詢一些可以自動填的參數(shù),來降低手動填的參數(shù)數(shù)量。

第三個就是量化工具。如果只是要驗證 graph 能否在 TF Lite 上運行,不需要用到。如果要整合進客戶端產(chǎn)品的話,還會經(jīng)過量化把模型體積壓縮后才推送至用戶手機 (或打包進安裝包),在用戶手機上做一次性的還原后才能運行。

5. 效果分析: TF Lite 帶來的收益

在客戶端實現(xiàn)基于 TF Lite 模型的部署之后,我們分別測試了同一模型在 TF 完全版(TF Mobile)和 TF Lite 10, 000 次 Inference 的資源消耗情況,如下圖所示。主要的 Metrics 包括內(nèi)存占用 (memory),運行時間(speed)和靜態(tài)鏈接庫的大小 (image size)。

TF Lite based model performance metrics

可以看到,各項 Metrics 都得到的大幅的優(yōu)化,這對于提升產(chǎn)品的整體性能與穩(wěn)定度都是十分有利的。

6. TensorFlow 與 Kika

除了輸入法引擎之外,Kika 技術(shù)團隊近年來也一直在致力于采用 AI 技術(shù)解決內(nèi)容推薦,語音識別和自然語義理解方面等方面的諸多實際問題,在客戶端和服務(wù)端部署分別采用 TF Lite 和 TF Serving 這兩個基于 TensorFlow 的優(yōu)秀框架。后續(xù) Kika 技術(shù)團隊將持續(xù)帶來關(guān)于 Kika 在 TF Lite 和 TF Serving 實踐中的經(jīng)驗分享。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29398

    瀏覽量

    267694
  • 引擎
    +關(guān)注

    關(guān)注

    1

    文章

    357

    瀏覽量

    22500
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5439

    瀏覽量

    120794
  • TensorFlow Lite
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    586

原文標題:TensorFlow Lite在Kika Keyboard中的應(yīng)用案例分享

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【社區(qū)工程師專題系列第七期】沒有興趣推動是不會有成就的——李海

    文檔,學習i.MX的AI開發(fā)環(huán)境和相關(guān)的程序框架。 2)利用TensorFlow Lite框架進行語音識別的模型建立和訓練工作。 3)將所訓練的模型移植到NXP的硬件平臺上。 4)利用語音指令控制其他
    發(fā)表于 10-23 16:53

    第四章:在 PC 交叉編譯 aarch64 的 tensorflow 開發(fā)環(huán)境并測試

    本文介紹了在 PC 端交叉編譯 aarch64 平臺的 tensorflow 庫而非 tensorflow lite 的心酸過程。
    的頭像 發(fā)表于 08-25 11:38 ?568次閱讀
    第四章:在 PC 交叉編譯 aarch64 的 <b class='flag-5'>tensorflow</b> 開發(fā)環(huán)境并測試

    TensorFlow是什么?TensorFlow怎么用?

    TensorFlow是由Google開發(fā)的一個開源深度學習框架,它允許開發(fā)者方便地構(gòu)建、訓練和部署各種復雜的機器學習模型。TensorFlow憑借其高效的計算性能、靈活的架構(gòu)以及豐富的工具和庫,在學
    的頭像 發(fā)表于 07-12 16:38 ?479次閱讀

    tensorflow和pytorch哪個更簡單?

    PyTorch更簡單。選擇TensorFlow還是PyTorch取決于您的具體需求和偏好。如果您需要一個易于使用、靈活且具有強大社區(qū)支持的框架,PyTorch可能是一個更好的選擇。如果您需要一個在
    的頭像 發(fā)表于 07-05 09:45 ?613次閱讀

    tensorflow和pytorch哪個好

    tensorflow和pytorch都是非常不錯的強大的框架,TensorFlow還是PyTorch哪個更好取決于您的具體需求,以下是關(guān)于這兩個框架的一些關(guān)鍵點: TensorFlow : 發(fā)布時間
    的頭像 發(fā)表于 07-05 09:42 ?563次閱讀

    tensorflow簡單的模型訓練

    在本文中,我們將詳細介紹如何使用TensorFlow進行簡單的模型訓練。TensorFlow是一個開源的機器學習庫,廣泛用于各種機器學習任務(wù),包括圖像識別、自然語言處理等。我們將從安裝
    的頭像 發(fā)表于 07-05 09:38 ?414次閱讀

    keras模型轉(zhuǎn)tensorflow session

    在這篇文章中,我們將討論如何將Keras模型轉(zhuǎn)換為TensorFlow session。 Keras和TensorFlow簡介 Keras是一個高級神經(jīng)網(wǎng)絡(luò)API,它提供了一種簡單、快速的方式來構(gòu)建
    的頭像 發(fā)表于 07-05 09:36 ?392次閱讀

    TensorFlow的定義和使用方法

    TensorFlow是一個由谷歌人工智能團隊谷歌大腦(Google Brain)開發(fā)和維護的開源機器學習庫。它基于數(shù)據(jù)流編程(dataflow programming)的概念,將復雜的數(shù)學運算表示為
    的頭像 發(fā)表于 07-02 14:14 ?605次閱讀

    【正點原子i.MX93開發(fā)板試用連載體驗】基于深度學習的語音本地控制

    實現(xiàn)語音智能識別功能。 項目計劃 1)根據(jù)文檔,學習i.MX的AI開發(fā)環(huán)境和相關(guān)的程序框架。 2)利用TensorFlow Lite框架進行語音識別的模型建立和訓練工作。 3)將所訓練的模型移植到NXP
    發(fā)表于 06-30 10:49

    如何使用TensorFlow構(gòu)建機器學習模型

    在這篇文章中,我將逐步講解如何使用 TensorFlow 創(chuàng)建一個簡單的機器學習模型。
    的頭像 發(fā)表于 01-08 09:25 ?872次閱讀
    如何使用<b class='flag-5'>TensorFlow</b>構(gòu)建機器學習模型

    【飛騰派4G版免費試用】第五章:使用C++部署tflite模型到飛騰派

    Pose Detection in C++ using Machine Learning with TensorFlow Lite Tensorflow 1 vs Tensorflow
    發(fā)表于 12-27 21:17

    【飛騰派4G版免費試用】第四章:部署模型到飛騰派的嘗試

    使用; 使用 C++ 將 TensorFlow Lite 移植到飛騰派,分別在 PC 端和飛騰派上使用 sample/image_label 進行測試; 開發(fā)基于 TensorFlow Lit
    發(fā)表于 12-20 21:10

    HarmonyOS:使用MindSpore Lite引擎進行模型推理

    如果是第三方框架的模型,比如 TensorFlow、TensorFlow Lite、Caffe、ONNX 等,可以使用模型轉(zhuǎn)換工具轉(zhuǎn)換為.ms 格式的模型文件。 創(chuàng)建上下文,設(shè)置線程數(shù)、設(shè)備類型等參數(shù)
    發(fā)表于 12-14 11:41

    PyTorch與TensorFlow的優(yōu)點和缺點

    轉(zhuǎn)載自:冷凍工廠 ? 深度學習框架是簡化人工神經(jīng)網(wǎng)絡(luò) (ANN) 開發(fā)的重要工具,并且其發(fā)展非常迅速。其中,TensorFlow 和 PyTorch 脫穎而出,各自在不同的機器學習領(lǐng)域占有一席之地
    的頭像 發(fā)表于 10-30 09:56 ?927次閱讀
    PyTorch與<b class='flag-5'>TensorFlow</b>的優(yōu)點和缺點

    【今晚開播】社區(qū)說|多才多藝: 探索 Android 應(yīng)用更多可能

    設(shè)備上實現(xiàn)圖片識別文字等機器學習任務(wù)時,構(gòu)建在 TensorFlow Lite 之上的 MediaPipe 將讓一切變得簡單。 活動時間 10 月 26 日 (今天) 19:00 - 2
    的頭像 發(fā)表于 10-27 09:20 ?250次閱讀
    【今晚開播】社區(qū)說|多才多藝: 探索 Android 應(yīng)用更多可能