黄色三级免费电影,欧美久久国产精品激情

上一篇小編和大家分享了在運行客戶的一個模型時遇到了一個PRelu算子，在利用TFLm自帶的PRelu參考實現(xiàn)的代碼，其中PRelu竟然拋出了188ms的天文數(shù)字...因此小編開始準備PRelu算子的優(yōu)化工作。

分析了參考實現(xiàn)后，發(fā)現(xiàn)了兩個優(yōu)化方向，其一是PRelu中alpha參數(shù)的特殊性所帶來的內(nèi)存訪問優(yōu)化；以及量化模型所帶來的反量化問題。

本期小編就和大家一起來看下對于反量化問題的優(yōu)化細節(jié)。在開始前，再來回顧一下小編所特殊定制的模型：

這是一個具有5個節(jié)點的小巧的深度神經(jīng)網(wǎng)絡，輸入時128*128*3，模型推理時間(采用Keil IDE，ofast優(yōu)化):

跳過PRelu算子，模型推理時間：

這樣我們就可以得出PRelu算子的執(zhí)行時間為13ms，接下來就將以此為基礎進行算法優(yōu)化，TFLm算法實現(xiàn)：

output_value = MultiplyByQuantizedMultiplier(
                  input_value, params.output_multiplier_1, params.output_shift_1);
output_value = MultiplyByQuantizedMultiplier(
                  input_value * alpha_value, params.output_multiplier_2, params.output_shift_2);

上一篇小編給大家解釋了為何需要進行反量化操作以及其必要性。所謂反量化操作的本質(zhì)，就是要用int8類型的中間結(jié)果來準確表達浮點結(jié)果。那么具體來說需要怎么操作呢？下面就是嚴謹?shù)耐乒江h(huán)節(jié)，請讀友們不要眨眼：

首先是整數(shù)環(huán)節(jié)，我們假設輸入為input, 輸出為output，參數(shù)alpha；其參數(shù)類型均為int8。而想要將其反量化為浮點數(shù)，需要為其設定對應的量化參數(shù)，分別為scale以及zero_point。這樣一來，變量的浮點數(shù)表示即為：

v_fp=scale* (v_i8+zero_point)

為了分析簡單，我們假設zero_point為0，那么上式可被簡化為，當然實際計算式，只需要將輸入值提前加上其zero_point再進行操作即可：

v_fp=scale* v_i8

接下來我們根據(jù)輸入數(shù)據(jù)的符號進行區(qū)分，當輸入為正時，其輸出結(jié)果為,

scale_o* output=scale_i* v_i8
output=scale_i  /  scale_0* v_i8

這樣我們就可以根據(jù)輸入直接獲取int8類型的輸出結(jié)果。

當輸入為負時：

scale_o* output=(scale_a*alpha)*(scale_i* v_i8)
output=((scale_a* scale_i)/scale_0)* 〖alpha*v〗_i8)

這樣也就獲得了相對應的負數(shù)輸入所對應的輸出結(jié)果。不過，征程還沒有結(jié)束，TFLm的參考實現(xiàn)會將這兩組浮點數(shù)代表的scale參數(shù)轉(zhuǎn)換為指數(shù)形式，并以mul+shift的形式保存為：正數(shù)output_multipiler_1和output_shift_1, 負數(shù)output_multipiler_2和output_shift_2。

知道了結(jié)果是如何進行反量化操作的，回過頭我們看看TFLm的實現(xiàn)：

inline std::int16_t SaturatingRoundingDoublingHighMul(std::int16_t a,
                                                      std::int16_t b) {
  bool overflow = a == b && a == std::numeric_limits<std::int16_t>::min();
  std::int32_t a_32(a);
  std::int32_t b_32(b);
  std::int32_t ab_32 = a_32 * b_32;
  std::int16_t nudge = ab_32 >= 0 ? (1 << 14) : (1 - (1 << 14));
  std::int16_t ab_x2_high16 =
      static_cast<std::int16_t>((ab_32 + nudge) / (1 << 15));
  return overflow ? std::numeric_limits<std::int16_t>::max() : ab_x2_high16;
}
inline int32_t MultiplyByQuantizedMultiplier(int32_t x,
                                             int32_t quantized_multiplier,
                                             int shift) {
  using gemmlowp::RoundingDivideByPOT;
  using gemmlowp::SaturatingRoundingDoublingHighMul;
  int left_shift = shift > 0 ? shift : 0;
  int right_shift = shift > 0 ? 0 : -shift;
  return RoundingDivideByPOT(SaturatingRoundingDoublingHighMul(
                                 x * (1 << left_shift), quantized_multiplier),
                             right_shift);
}

首先arm的cmsis-nn庫是兼容這種量化方式的，那么他也一定有一個這樣的實現(xiàn)，功夫不負有心人，這個函數(shù)叫做arm_nn_requantize，直接替換MultiplyByQuantizedMultiplier函數(shù)讓我們先看一下速度：

嗯，不錯，有效果，44ms->42ms，相當于PRelu算子執(zhí)行速度從13ms->11ms; 還可以，無痛漲點。翻看arm_nn_requantize函數(shù)，其中也不乏一些手撕浮點數(shù)的神秘操作。考慮到我們的RT1170本身兼?zhèn)湟粋€FPU單元，為啥不直接用浮點數(shù)計算呢？這次我們不對scale參數(shù)進行指數(shù)化轉(zhuǎn)換，而是直接將其作為浮點數(shù)參與運算，公式就是上面我們推導的：

 // init the float mul, shift
  float real_multiplier_1 = (input->params.scale) / (output->params.scale);
  float real_multiplier_2 = (input->params.scale) * (alpha->params.scale) / (output->params.scale);

計算方式重新定義為：

output_value = MultiplyByQuantizedMultiplierFP32(
                input_value, multiplier_pos);
static inline int32_t MultiplyByQuantizedMultiplierFP32(int32_t x, float mul){
  return roundf(x * mul);

是不是看著非常清爽？讓我們看下時間：

額。。。有點尷尬，竟然沒有長點，而且和TFLm的原始實現(xiàn)速度一樣。小編才提到的內(nèi)存優(yōu)化不是還沒有上？浮點運算這邊還有小插曲，讓我們繼續(xù)前行：

首先讓我們先看下浮點操作再如何進行優(yōu)化，由于我們的代碼由于采用了Ofast優(yōu)化策略，因此代碼的可閱讀性變得很差。為了進行代碼優(yōu)化，小編需要特殊編寫一組浮點運算代碼以供優(yōu)化參考，因為我們最終實現(xiàn)的是一個int32數(shù)據(jù)與浮點數(shù)相乘：

static inline int32_t MultiplyByQuantizedMultiplierFP32(int32_t x, float mul){
  return roundf(x * mul);
}

編寫代碼如下：

 int32_t v1 = (float)SysTick->VAL;
    float v2 = SysTick->VAL * 0.0001f;
    int32_t v3 = (v1 * v2);
    PRINTF("%d", v3);

其所生成的匯編代碼為：

int32_t v1 = (float)SysTick->VAL;
     800040DC   LDR            R2, [R0]
     800040DE   STRD           R2, R1, [SP]
     800040E2   VLDR           D0, [SP]
     800040E8   VSUB.F64       D0, D0, D1
     800040F0   VCVT.F32.F64   S0, D0
     800040F8   VCVT.S32.F32   S0, S0
     800040FE   VMOV           R0, S0
    float v2 = SysTick->VAL * 0.0001f;
     800040E6   LDR            R0, [R0]
     800040EC   STRD           R0, R1, [SP, #16]
     800040F4   VLDR           D2, [SP, #16]
     80004102   VSUB.F64       D0, D2, D1
     80004106   VLDR           D2, =0x4330000080000000
     80004110   VCVT.F32.F64   S0, D0
     80004122   VMUL.F32       S0, S0, S4
    int32_t v3 = (v1 * v2);
     800040FC   STR            R1, [SP, #12]
     8000410A   EOR            R0, R0, #0x80000000
     8000410E   STR            R0, [SP, #8]
     80004116   VLDR           D1, [SP, #8]
     8000411A   VSUB.F64       D1, D1, D2
     8000411E   VLDR           S4, =0x38D1B717            
     80004126   VCVT.F32.F64   S2, D1
     8000412A   VMUL.F32       S0, S2, S0

到這里，小伙伴們可能已經(jīng)看到了端倪，小編也特意為大家標紅了幾條匯編代碼。那小編就先拋出疑問：我們明明定義的浮點型, 咋還用上double類型了呢？相同的代碼用GCC編譯會是什么樣的呢？

int32_t v1 = (float)SysTick->VAL;
300030f2:   mov.w   r3, #3758153728 ; 0xe000e000
300030f6:   vldr    s15, [r3, #24]
71            float v2 = SysTick->VAL * 0.0001f;
300030fa:   vldr    s14, [r3, #24]
300030fe:   vcvt.f32.u32    s14, s14
30003102:   vldr    s13, [pc, #92]  ; 0x30003160 +148>
30003106:   vmul.f32        s14, s14, s13
72            int32_t v3 = __builtin_roundf(v1 * v2);
3000310a:   vcvt.f32.s32    s15, s15
3000310e:   vmul.f32        s15, s15, s14
30003112:   vrinta.f32      s15, s15

看似正常，沒有使用double類型寄存器；那問題出在哪呢？難道Keil對于浮點數(shù)的支持不太行？翻閱了一萬件資料之后，小編在編譯時使用一個叫做-ffp-mode = full的參數(shù)，這個參數(shù)的意思是：

同時還有兩個參數(shù)，是-fp-mode=fast和-fp-mode=std，簡單來講就是full會保證轉(zhuǎn)換精度，因此會出現(xiàn)使用double類型的情況。而fast可能會丟失一點精度，而std介于兩者之間。那么我們定義-fp-mode=std試試？

代碼如下：

int32_t v1 = (float)SysTick->VAL;
     800040D4   VLDR           S0, [R0]
     800040E2   VCVT.F32.U32   S0, S0
    float v2 = SysTick->VAL * 0.0001f;
     800040D8   VLDR           S2, [R0]
     800040DC   VCVT.F32.U32   S2, S2
     800040E6   VMUL.F32       S2, S2, S4
    int32_t v3 = (v1 * v2);
     800040EA   VRINTZ.F32     S0, S0
     800040EE   VMUL.F32       S0, S2, S0

嗯，優(yōu)雅，就是這么簡單。指令條數(shù)減少了很多啊，讓我們再來看看時間：

這樣一來就和arm提供的方式一致了，相比實現(xiàn)就清爽了很多。

接下來小編還有一個殺手锏，內(nèi)存優(yōu)化，不過此處的內(nèi)存優(yōu)化是有個前提，我們知道PRelu的alpha參數(shù)是按通道的，這里要做個特殊的假設，假設輸入維度為 h w c，而且alpha參數(shù)是按h w共享的，即只有最后一維參數(shù)，維度為11 c：

if((alpha_shape.Dims(0) == 1) && (alpha_shape.Dims(1) == 1))

這樣我們就可以按c通道進行展開，并進行順序訪問；

其次，輸入數(shù)據(jù)為int8類型，原始實現(xiàn)方式中每次只取一個數(shù)據(jù)進行計算：

const int32_t input_value =
              params.input_offset + input_data[input_index];

這樣編譯器會將起編譯為LDRB指令，即每次只獲取一個字節(jié)的數(shù)據(jù)。對此進行優(yōu)化，每次讀取4個字節(jié)的數(shù)據(jù)，這樣可以編譯為LDR指令，并放置于寄存器中，減少訪存次數(shù)：

uint32_t steps = alpha_shape.Dims(2);
uint32_t total_size = input_shape.Dims(0) * input_shape.Dims(1) * input_shape.Dims(2) * input_shape.Dims(3);
for(int value_index=0;value_index    T *alpha = (T *)alpha_data;
    // each 4, calc the time_tick
    uint32_t inner_loop = steps >> 2;
    int8_t *input_data_ptr = (int8_t*)input_data + value_index;
    int8_t *output_data_ptr = (int8_t*)output_data + value_index;
    while(inner_loop --){
       int32_t input_data_32 = *((int32_t*)(input_data_ptr));
       input_data_ptr += 4;
       uint32_t count = 4;
          while(count--){
              int8_t input_data_8 = input_data_32 & 0xFF;
              input_data_32 >>= 8;
       。。。。

;value_index+=steps){>

這樣一來，就可以順序取數(shù)據(jù)，并且每次讀取4個字節(jié)，看下時間：

Nice!~

PRelu的時間變?yōu)?7ms – 31ms = 6ms。經(jīng)過兩步優(yōu)化，將PRelu的執(zhí)行時間降低了7ms。用客戶的模型測試一下，PRelu算子運行時間從之前的188ms降低到了51ms。Perfect!

不過，小編精益求精，還有一些微小的優(yōu)化空間，后續(xù)將會進一步優(yōu)化。

歡迎朋友們持續(xù)關(guān)注~

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

mcu

mcu

+關(guān)注

關(guān)注
146

文章
16802

瀏覽量
349363
NXP

NXP

+關(guān)注

關(guān)注
60

文章
1255

瀏覽量
182493
恩智浦

恩智浦

+關(guān)注

關(guān)注
14

文章
5806

瀏覽量
105957
函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4260

瀏覽量
62231
算子

算子

+關(guān)注

關(guān)注
0

文章
16

瀏覽量
7249

原文標題：PRelu算子調(diào)優(yōu)經(jīng)歷-函數(shù)優(yōu)化策略

文章出處：【微信號：NXP_SMART_HARDWARE，微信公眾號：恩智浦MCU加油站】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

MMC DLL調(diào)優(yōu)

電子發(fā)燒友網(wǎng)站提供《MMC DLL調(diào)優(yōu).pdf》資料免費下載

發(fā)表于 10-11 11:48 ?0次下載

MMC DLL<b class='flag-5'>調(diào)</b><b class='flag-5'>優(yōu)</b>

TDA3xx ISS調(diào)優(yōu)和調(diào)試基礎設施

電子發(fā)燒友網(wǎng)站提供《TDA3xx ISS調(diào)優(yōu)和調(diào)試基礎設施.pdf》資料免費下載

發(fā)表于 10-11 10:16 ?0次下載

TDA3xx ISS<b class='flag-5'>調(diào)</b><b class='flag-5'>優(yōu)</b>和調(diào)試基礎設施

大數(shù)據(jù)從業(yè)者必知必會的Hive SQL調(diào)優(yōu)技巧

不盡人意。本文針對Hive SQL的性能優(yōu)化進行深入研究，提出了一系列可行的調(diào)優(yōu)方案，并給出了相應的優(yōu)化案例和優(yōu)化前后的SQL代碼。通過合理

發(fā)表于 09-24 13:30 ?110次閱讀

智能調(diào)優(yōu),使步進電機安靜而高效地運行

電子發(fā)燒友網(wǎng)站提供《智能調(diào)優(yōu),使步進電機安靜而高效地運行.pdf》資料免費下載

發(fā)表于 09-24 11:08 ?1次下載

智能<b class='flag-5'>調(diào)</b><b class='flag-5'>優(yōu)</b>,使步進電機安靜而高效地運行

MMC SW調(diào)優(yōu)算法

電子發(fā)燒友網(wǎng)站提供《MMC SW調(diào)優(yōu)算法.pdf》資料免費下載

發(fā)表于 09-20 11:14 ?0次下載

MMC SW<b class='flag-5'>調(diào)</b><b class='flag-5'>優(yōu)</b>算法

TAS58xx系列通用調(diào)優(yōu)指南

電子發(fā)燒友網(wǎng)站提供《TAS58xx系列通用調(diào)優(yōu)指南.pdf》資料免費下載

發(fā)表于 09-14 10:49 ?0次下載

TAS58xx系列通用<b class='flag-5'>調(diào)</b><b class='flag-5'>優(yōu)</b>指南

AM6xA ISP調(diào)優(yōu)指南

電子發(fā)燒友網(wǎng)站提供《AM6xA ISP調(diào)優(yōu)指南.pdf》資料免費下載

發(fā)表于 09-07 09:52 ?0次下載

AM6xA ISP<b class='flag-5'>調(diào)</b><b class='flag-5'>優(yōu)</b>指南

深度解析JVM調(diào)優(yōu)實踐應用

Tomcat自身的調(diào)優(yōu)是針對conf/server.xml中的幾個參數(shù)的調(diào)優(yōu)設置。首先是對這幾個參數(shù)的含義要有深刻而清楚的理解。

發(fā)表于 04-01 10:24 ?389次閱讀

深度解析JVM<b class='flag-5'>調(diào)</b><b class='flag-5'>優(yōu)</b>實踐應用

鴻蒙開發(fā)實戰(zhàn)：【性能調(diào)優(yōu)組件】

性能調(diào)優(yōu)組件包含系統(tǒng)和應用調(diào)優(yōu)框架，旨在為開發(fā)者提供一套性能調(diào)優(yōu)平臺，可以用來分析內(nèi)存、性能等問

發(fā)表于 03-13 15:12 ?345次閱讀

鴻蒙開發(fā)實戰(zhàn)：【性能<b class='flag-5'>調(diào)</b><b class='flag-5'>優(yōu)</b>組件】

回調(diào)函數(shù)(callback)是什么？回調(diào)函數(shù)的實現(xiàn)方法

回調(diào)函數(shù)是一種特殊的函數(shù)，它作為參數(shù)傳遞給另一個函數(shù)，并在被調(diào)用函數(shù)執(zhí)行完畢后被調(diào)用?；?b class='flag-5'>調(diào)

發(fā)表于 03-12 11:46 ?2470次閱讀

jvm調(diào)優(yōu)工具有哪些

JVM調(diào)優(yōu)是提高Java應用程序性能的重要手段，而JVM調(diào)優(yōu)工具則是輔助開發(fā)人員進行調(diào)優(yōu)工作的利

發(fā)表于 12-05 11:44 ?976次閱讀

jvm調(diào)優(yōu)主要是調(diào)哪里

JVM調(diào)優(yōu)主要涉及內(nèi)存管理、垃圾回收、線程管理與鎖優(yōu)化等方面。下面將詳細介紹每個方面的調(diào)優(yōu)技術(shù)和策略

發(fā)表于 12-05 11:37 ?1428次閱讀

jvm調(diào)優(yōu)參數(shù)

JVM（Java虛擬機）是Java程序的運行環(huán)境，它負責解釋Java字節(jié)碼并執(zhí)行相應的指令。為了提高應用程序的性能和穩(wěn)定性，我們可以調(diào)優(yōu)JVM的參數(shù)。 JVM調(diào)優(yōu)主要涉及到堆內(nèi)存、垃圾

發(fā)表于 12-05 11:29 ?555次閱讀

什么場景需要jvm調(diào)優(yōu)

JVM調(diào)優(yōu)是指對Java虛擬機進行性能優(yōu)化和資源管理，以提高應用程序的運行效率和吞吐量。JVM調(diào)優(yōu)的場景有很多，下面將詳細介紹各種不同的場景

發(fā)表于 12-05 11:14 ?1262次閱讀

javajvm調(diào)優(yōu)有幾種方法

JVM調(diào)優(yōu)是Java應用程序性能優(yōu)化過程中的重要步驟，它通過針對JVM進行優(yōu)化來提高應用程序的性能和可靠性。JVM調(diào)

發(fā)表于 12-05 11:11 ?1955次閱讀

搜索歷史

PRelu算子調(diào)優(yōu)經(jīng)歷-函數(shù)優(yōu)化策略

評論