亚洲欧美自拍偷拍,久久精品国产亚洲av瑜伽

筆者接觸嵌入式領(lǐng)域軟件開(kāi)發(fā)以來(lái)，幾乎用的都是 ARM Cortex M 內(nèi)核系列的微控制器。感謝C語(yǔ)言編譯器的存在，讓我不用接觸匯編即可進(jìn)行開(kāi)發(fā)，但是彷佛也錯(cuò)過(guò)了一些風(fēng)景，沒(méi)有領(lǐng)域到編譯器之美和CPU之美，所以決定周末無(wú)聊的休息時(shí)間通過(guò)尋找資料、動(dòng)手實(shí)驗(yàn)、得出結(jié)論的方法來(lái)探索 ARM CPU 架構(gòu)的美妙，以及C語(yǔ)言編譯器的奧秘。（因?yàn)槲覀€(gè)人實(shí)在是不贊同學(xué)校中微機(jī)原理類(lèi)課程的教學(xué)方法）。

ARM探索之旅 01 | 帶你認(rèn)識(shí)ARM Cortex-M陣營(yíng)

ARM探索之旅 02 | ARM Cortex-M 用什么指令集？

一、浮點(diǎn)數(shù)的存儲(chǔ)

浮點(diǎn)數(shù)按照 IEEE 754 標(biāo)準(zhǔn)存儲(chǔ)在計(jì)算機(jī)中，ARM浮點(diǎn)環(huán)境是遵循「IEEE 754-1985」標(biāo)準(zhǔn)實(shí)現(xiàn)的。

IEEE 754 標(biāo)準(zhǔn)規(guī)定浮點(diǎn)數(shù)的存儲(chǔ)格式有三個(gè)域

sign：符號(hào)位，0表示正數(shù)、1表示負(fù)數(shù)；

exponent：二進(jìn)制小數(shù)的指數(shù)值編碼；

frac tion：二進(jìn)制小數(shù)的有效值編碼；

具體的編碼規(guī)則過(guò)多，本文重點(diǎn)不在此，不再展開(kāi)，感興趣可以閱讀我之前的文章：浮點(diǎn)數(shù)在計(jì)算機(jī)中的存儲(chǔ) —— IEEE 754標(biāo)準(zhǔn)［1］（可點(diǎn)擊閱讀原文查看）。

二、浮點(diǎn)支持軟件庫(kù)fplib

1. fplib介紹

ARM Cortex-M處理器中計(jì)算浮點(diǎn)數(shù)的方式有軟件和硬件兩種。

對(duì)于不帶 FPU 的處理器，ARM提供了一個(gè)「浮點(diǎn)支持軟件庫(kù)」用于計(jì)算浮點(diǎn)數(shù)：fplib。

fplib提供的 API 以__aeabi開(kāi)頭，比如：

__aeabi_fadd：計(jì)算兩個(gè)float型浮點(diǎn)數(shù)（float占4個(gè)字節(jié)，32位）

__aeabi_dadd：計(jì)算兩個(gè)double型浮點(diǎn)數(shù)（double占8個(gè)字節(jié)，64位）

__aeabi_f2d：float型轉(zhuǎn)為double型

__aeabi_d2f：double型轉(zhuǎn)為float型

除此之外，fplib庫(kù)還提供取余、開(kāi)方等非常多的浮點(diǎn)數(shù)操作函數(shù)，如有興趣可以查閱文末我列出的參考文檔［2］。

2. 測(cè)試代碼與優(yōu)化等級(jí)

編寫(xiě)如下測(cè)試代碼：

float a = 5.625; float b = 5.625; float res_add， res_sub， res_mul， res_div; res_add = a + b; res_sub = a - b; res_mul = a * b; res_div = a / b; printf（“res_add = %f ”， res_add）; printf（“res_sub = %f ”， res_sub）; printf（“res_mul = %f ”， res_mul）; printf（“res_div = %f ”， res_div）;

使用這段測(cè)試代碼，「編譯器優(yōu)化等級(jí)推薦設(shè)置為-O0」，否則聰明的編譯器會(huì)直接將結(jié)果計(jì)算出來(lái)編譯到程序中，我們就沒(méi)法研究了。

3. armcc測(cè)試結(jié)果

這節(jié)我們驗(yàn)證是否ARM使用 fplib 庫(kù)來(lái)計(jì)算浮點(diǎn)數(shù)，在設(shè)置中關(guān)閉FPU：

使用MDK編譯之后，進(jìn)入調(diào)試模式查看反匯編結(jié)果。

在反匯編中可以看到，變量a是float類(lèi)型，所以編譯器分配了一個(gè)寄存器用于存儲(chǔ)值：

查看0x080031C4處的值，小端存儲(chǔ)模式下（低位在低地址），變量a的值是0x40B40000，存儲(chǔ)方式符合IEEE 754標(biāo)準(zhǔn)。

再來(lái)看看浮點(diǎn)數(shù)運(yùn)算操作的反匯編結(jié)果，果然調(diào)用fplib庫(kù)提供的函數(shù)完成浮點(diǎn)數(shù)的操作：這里還有一個(gè)有趣的小細(xì)節(jié)，在反匯編中可以看到「使用 %f 占位符打印浮點(diǎn)數(shù)時(shí)，printf是按照double型傳參的」：

4. arm-none-eabi-gcc測(cè)試結(jié)果

使用STM32CubeMX生成makeifle工程，修改makeifle中的等級(jí)為-O0，設(shè)置為軟件浮點(diǎn)計(jì)算：另外還需要注意，默認(rèn)gcc編譯時(shí)不支持printf打印浮點(diǎn)數(shù)，需要在 makefile 中手動(dòng)加入以下鏈接選項(xiàng)：

LDFLAGS += -u _printf_float

編譯完成之后進(jìn)行反匯編（注意文件名）：

arm-none-eabi-objdump -s -d build/usart1-fpu-test.elf 》 build/usart1-fpu-test.dis

同樣，在反匯編文件中即可找到浮點(diǎn)計(jì)算代碼：

三、使用 ARM FPU 加速浮點(diǎn)計(jì)算

1. ARM FPU的魅力

FPU（Floating Point Unit，浮點(diǎn)單元）是ARM內(nèi)核中的硬件外設(shè)，用于硬件計(jì)算浮點(diǎn)數(shù)，要想使用FPU計(jì)算浮點(diǎn)數(shù)，需要程序和編譯器配合。

在程序中使能/開(kāi)啟FPU硬件外設(shè)，「使 FPU 硬件可以正常工作」；

在編譯器中設(shè)置使用FPU，編譯器會(huì)將所有浮點(diǎn)計(jì)算的代碼都編譯為「使用FPU操作指令完成」。

目前Cortex-M4、Cortex-M7、Cortex-M33、Cortex-M35P、Cortex-M55處理器中都具備FPU硬件。

在上一節(jié)中我們使用fplib軟件庫(kù)來(lái)計(jì)算浮點(diǎn)數(shù)，但是fplib終歸還是軟件方式，每個(gè)計(jì)算函數(shù)的實(shí)現(xiàn)都是通過(guò)很多的指令去完成計(jì)算，并且最終的程序中還會(huì)把函數(shù)鏈接進(jìn)可執(zhí)行程序，導(dǎo)致程序體積變大。

「ARM FPU的魅力在于，浮點(diǎn)計(jì)算可以通過(guò)簡(jiǎn)單的FPU操作指令去完成，相比之下，不僅計(jì)算快，也不會(huì)增大程序體積。」

2. 如何使能FPU硬件

ARM Cortex - M4內(nèi)核中將 FPU 作為協(xié)處理器設(shè)計(jì)的，所以通過(guò)設(shè)置協(xié)處理器訪(fǎng)問(wèn)控制（CPACR，Co-processor access control register）來(lái)控制是否使能FPU。

復(fù)位之后CP11=0、CP10=0，默認(rèn)禁止訪(fǎng)問(wèn)FPU，因?yàn)檫@是Cortex-M內(nèi)核的外設(shè)，寄存器定義CMSIS-Core中，所以可以直接通過(guò)下面這行代碼設(shè)置CP11=1、CP10=1來(lái)允許訪(fǎng)問(wèn)FPU：

SCB-》CPACR = 0x00F00000; // Enable the floating point unit for full access

無(wú)論是STM32 HAL庫(kù)還是標(biāo)準(zhǔn)庫(kù)，在SystemInit（）函數(shù)中已經(jīng)存在使能代碼，通過(guò)__FPU_PRESENT和__FPU_USED來(lái)控制：

/* FPU settings ------------------------------------------------------------*/ #if （__FPU_PRESENT == 1） && （__FPU_USED == 1） SCB-》CPACR |= （（3UL 《《 10*2）|（3UL 《《 11*2））; /* set CP10 and CP11 Full Access */ #endif

并且，在頭文件 stm32l431xx.h 中已經(jīng)使能__FPU_PRESENT宏定義：__FPU_PRESENT宏定義是一直使能的，那么如何來(lái)控制FPU的使能呢？

別忘了還有一個(gè)宏定義__FPU_USED，這是留給編譯器來(lái)控制的！

3. ARMCC編譯器如何開(kāi)啟FPU

MDK編譯器開(kāi)啟FPU的方法非常簡(jiǎn)單，如圖：在MDK中使能FPU，一方面編譯器會(huì)設(shè)置宏定義__FPU_USED == 1，不放心的話(huà)可以在任意位置添加下面的預(yù)處理代碼，分別在使用/不使用的情況編譯一下，查看編譯器輸出結(jié)果：

#if __FPU_USED == 1 #error “ok！” #endif

另一方面，編譯器在編譯的時(shí)候，會(huì)將所有的浮點(diǎn)運(yùn)算都編譯為使用FPU操作指令去完成

4. gcc編譯器如何開(kāi)啟FPU

在Makefile中加入以下gcc編譯設(shè)置項(xiàng)：

# fpu FPU = -mfpu=fpv4-sp-d16 # float-abi FLOAT-ABI = -mfloat-abi=hard

ABI是應(yīng)用程序二進(jìn)制接口（Application Binary Interface），-mfloat-abi用來(lái)指定使用哪種方式：

soft：使用CPU寄存器組+軟件庫(kù)（fplib）完成浮點(diǎn)操作；

softfp：使用CPU寄存組+FPU硬件+軟件庫(kù)完成浮點(diǎn)操作；

hard：使用FPU寄存器組+FPU硬件+軟件庫(kù)完成浮點(diǎn)操作；

mfpu選項(xiàng)用來(lái)指定FPU架構(gòu)，具體值可以閱讀我在文末給出的參考文檔，本文所使用的值fpv4-sp-d16，意味著僅僅使能Armv7 FPv4-SP-D16 單精度浮點(diǎn)單元擴(kuò)展。

同樣，對(duì)之前的測(cè)試代碼編譯，查看反匯編結(jié)果，可以看到使用了浮點(diǎn)操作全部使用了FPU相關(guān)指令。

四、使用Julia測(cè)試FPU加速性能

1. 測(cè)試準(zhǔn)備

需要準(zhǔn)備一份裸機(jī)工程，具有屏幕打點(diǎn)顯示功能和串口打印功能。

參考：STM32CubeMX_17 | 使用硬件SPI驅(qū)動(dòng)TFT-LCD（ST7789）。

2. 移植Julia分形測(cè)試代碼

Julia測(cè)試是通過(guò)計(jì)算幾幀Julia分形的數(shù)據(jù)來(lái)測(cè)試單精度浮點(diǎn)運(yùn)算的性能，測(cè)試代碼參考正點(diǎn)原子，如下：

/* Private user code ---------------------------------------------------------*/ /* USER CODE BEGIN 0 */ #define ITERATION 128 //迭代次數(shù) #define REAL_CONSTANT 0.285f //實(shí)部常量 #define IMG_CONSTANT 0.01f //虛部常量 //顏色表 uint16_t color_map［ITERATION］; //縮放因子列表 const uint16_t zoom_ratio［］ = { 120， 110， 100， 150， 200， 275， 350， 450， 600， 800， 1000， 1200， 1500， 2000， 1500， 1200， 1000， 800， 600， 450， 350， 275， 200， 150， 100， 110， }; //初始化顏色表 //clut：顏色表指針 void InitCLUT（uint16_t * clut） { uint32_t i = 0x00; uint16_t red = 0， green = 0， blue = 0; for （i = 0;i 《 ITERATION; i++） { //產(chǎn)生 RGB 顏色值 red = （i*8*256/ITERATION） % 256;

green = （i*6*256/ITERATION） % 256; blue = （i*4*256 /ITERATION） % 256;

//將 RGB888，轉(zhuǎn)換為 RGB565 red = red 》》 3; red = red 《《 11; green = green 》》 2; green = green 《《 5; blue = blue 》》 3; clut［i］ = red + green + blue; } } //產(chǎn)生 Julia 分形圖形 //size_x，size_y：屏幕 x，y 方向的尺寸 //offset_x，offset_y：屏幕 x，y 方向的偏移 //zoom：縮放因子 void GenerateJulia_fpu（uint16_t size_x，uint16_t size_y，uint16_t offset_x，uint16_t offset_y，uint16_t zoom） { uint8_t i; uint16_t x，y; float tmp1，tmp2; float num_real，num_img; float radius; for （y = 0; y 《 size_y; y++） { for （x = 0; x 《 size_x; x++） { num_real = y - offset_y; num_real = num_real / zoom; num_img = x-offset_x;

num_img = num_img / zoom; i = 0; radius = 0; while （（i 《 ITERATION-1） && （radius 《 4）） { tmp1 = num_real * num_real;

tmp2 = num_img * num_img; num_img = 2*num_real*num_img + IMG_CONSTANT; num_real = tmp1 - tmp2 + REAL_CONSTANT;

radius = tmp1 + tmp2; i++; } //繪制到屏幕 lcd_draw_color_point（x， y， color_map［i］）; } } } /* USER CODE END 0 */

在main函數(shù)中創(chuàng)建一些需要的變量：

/* USER CODE BEGIN 1 */ uint8_t zoom_index = 0; uint32_t start_time = 0， end_time = 0; /* USER CODE END 1 */

調(diào)用初始化函數(shù)：

/* USER CODE BEGIN 2 */ printf（“Julia test by Mculover666 ”）; lcd_init（）; //初始化顏色表 InitCLUT（color_map）; /* USER CODE END 2 */

調(diào)用測(cè)試函數(shù)：

/* Infinite loop */ /* USER CODE BEGIN WHILE */ while （1） { /* USER CODE END WHILE */ /* USER CODE BEGIN 3 */ start_time = HAL_GetTick（）; GenerateJulia_fpu（240， 240， 120， 120， zoom_ratio［zoom_index］）; end_time = HAL_GetTick（）; printf（“diff time is %d ms ”， end_time - start_time）; zoom_index++; if （zoom_index 》 sizeof（zoom_ratio）） { zoom_index = 0; } } /* USER CODE END 3 */

3. 測(cè)試結(jié)果

使用-O2優(yōu)化等級(jí)，在不開(kāi) FPU 的情況下，「顯示一幀平均需要11s左右」：程序大小情況：

使用-O2優(yōu)化等級(jí)，在開(kāi)啟 FPU 的情況下，「顯示一幀平均需要4s左右」：程序大小情況：

最后放上好看的Julia分形圖：

原文標(biāo)題：揭秘ARM FPU 加速浮點(diǎn)計(jì)算

文章出處：【微信公眾號(hào)：strongerHuang】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

ARM

ARM

+關(guān)注

關(guān)注
134

文章
9013

瀏覽量
366180
嵌入式

嵌入式

+關(guān)注

關(guān)注
5054

文章
18920

瀏覽量
301059
C語(yǔ)言

C語(yǔ)言

+關(guān)注

關(guān)注
180

文章
7581

瀏覽量
135656

原文標(biāo)題：揭秘ARM FPU 加速浮點(diǎn)計(jì)算

文章出處：【微信號(hào)：strongerHuang，微信公眾號(hào)：strongerHuang】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

如何學(xué)習(xí)ARM？

、寄存器、內(nèi)存管理單元（MMU）、中斷控制器等方面的知識(shí)。 3.學(xué)習(xí)編程語(yǔ)言和工具：掌握一門(mén)與 ARM 處理器兼容的編程

發(fā)表于 10-11 10:42

AI編譯器技術(shù)剖析

隨著人工智能技術(shù)的飛速發(fā)展，AI編譯器作為一種新興的編譯技術(shù)逐漸進(jìn)入人們的視野。AI編譯器不僅具備傳統(tǒng)編譯器的功能，如將高級(jí)語(yǔ)言編寫(xiě)的源代碼

發(fā)表于 07-17 18:28 ?1352次閱讀

人工智能編譯器與傳統(tǒng)編譯器的區(qū)別

人工智能編譯器（AI編譯器）與傳統(tǒng)編譯器在多個(gè)方面存在顯著的差異。這些差異主要體現(xiàn)在設(shè)計(jì)目標(biāo)、功能特性、優(yōu)化策略、適用范圍以及技術(shù)復(fù)雜性等方面。以下是對(duì)兩者區(qū)別的詳細(xì)探討，旨在全面解析

發(fā)表于 07-17 18:19 ?1501次閱讀

Meta發(fā)布基于Code Llama的LLM編譯器

近日，科技巨頭Meta在其X平臺(tái)上正式宣布推出了一款革命性的LLM編譯器，這一模型家族基于Meta Code Llama構(gòu)建，并融合了先進(jìn)的代碼優(yōu)化和編譯器功能。LLM編譯器的推出，標(biāo)志著Meta在人工智能領(lǐng)域的又一重大突破，將

發(fā)表于 06-29 17:54 ?1390次閱讀

SEGGER編譯器優(yōu)化和安全技術(shù)介紹支持最新C和C++語(yǔ)言

SEGGER編譯器是專(zhuān)門(mén)為ARM和RISC-V微控制器設(shè)計(jì)的優(yōu)化C/C++編譯器。它建立在強(qiáng)大的

發(fā)表于 06-04 15:31 ?1299次閱讀

SEGGER<b class='flag-5'>編譯器</b>優(yōu)化和安全技術(shù)介紹支持最新<b class='flag-5'>C</b>和<b class='flag-5'>C</b>++<b class='flag-5'>語(yǔ)言</b>

C語(yǔ)言：嵌入式開(kāi)發(fā)中的關(guān)鍵編譯器角色

嵌入式程序開(kāi)發(fā)跟硬件密切相關(guān)，需要使用C語(yǔ)言來(lái)讀寫(xiě)底層寄存器、存取數(shù)據(jù)、控制硬件等，C語(yǔ)言和硬件之間由編

發(fā)表于 04-26 14:53 ?486次閱讀

C語(yǔ)言#define的應(yīng)用

在 C/C++ 編程語(yǔ)言中，當(dāng)程序被編譯時(shí)，被發(fā)送到編譯器，編譯器將程序轉(zhuǎn)換為機(jī)器

發(fā)表于 03-06 11:29 ?314次閱讀

QT開(kāi)發(fā)學(xué)習(xí)筆記1（安裝交叉編譯器）

QT安裝交叉編譯器

發(fā)表于 02-18 10:02 ?792次閱讀

RX系列V3.06.00的C/C++編譯器包數(shù)據(jù)手冊(cè)

電子發(fā)燒友網(wǎng)站提供《RX系列V3.06.00的C/C++編譯器包數(shù)據(jù)手冊(cè).pdf》資料免費(fèi)下載

發(fā)表于 01-26 15:57 ?1次下載

RL78系列的C編譯器包數(shù)據(jù)手冊(cè)

電子發(fā)燒友網(wǎng)站提供《RL78系列的C編譯器包數(shù)據(jù)手冊(cè).pdf》資料免費(fèi)下載

發(fā)表于 01-26 15:55 ?1次下載

Triton編譯器的原理和性能

Triton是一種用于編寫(xiě)高效自定義深度學(xué)習(xí)原語(yǔ)的語(yǔ)言和編譯器。Triton的目的是提供一個(gè)開(kāi)源環(huán)境，以比CUDA更高的生產(chǎn)力編寫(xiě)快速代碼，但也比其他現(xiàn)有DSL具有更大的靈活性。Triton已被采用

發(fā)表于 12-16 11:22 ?2530次閱讀

TVM編譯器的整體架構(gòu)和基本方法

。但是這其中也去思考了一下基于FPGA加速器的編譯器架構(gòu)。在FPGA深度學(xué)習(xí)加速器中，編譯器除了需要自動(dòng)化生成指令外，還要優(yōu)化指令的結(jié)構(gòu)，來(lái)

發(fā)表于 11-30 09:36 ?2137次閱讀

為什么C語(yǔ)言要進(jìn)行編譯

為什么我們編寫(xiě)的C語(yǔ)言要進(jìn)行編譯？什么是編譯？編譯時(shí)發(fā)生了什么？機(jī)器無(wú)法理解我們編寫(xiě)的C

發(fā)表于 11-24 15:47 ?1155次閱讀

編譯器的優(yōu)化選項(xiàng)

一個(gè)程序首先要保證正確性，在保證正確性的基礎(chǔ)上，性能也是一個(gè)重要的考量。要編寫(xiě)高性能的程序，第一，必須選擇合適的算法和數(shù)據(jù)結(jié)構(gòu)；第二，應(yīng)該編寫(xiě)編譯器能夠有效優(yōu)化以轉(zhuǎn)換成高效可執(zhí)行代碼的源代碼，要做到

發(fā)表于 11-24 15:37 ?812次閱讀

淺談Arm架構(gòu)各廠(chǎng)家的CPU混戰(zhàn)

過(guò)去，英特爾在全球個(gè)人電腦處理器市場(chǎng)上具有壓倒性?xún)?yōu)勢(shì)，常年擁有約70%的市場(chǎng)份額。而剩余的市場(chǎng)份額主要由AMD占據(jù)（采用X86架構(gòu)），ARM則占據(jù)10%的市場(chǎng)份額。據(jù)悉，AMD也將加入采用

發(fā)表于 11-19 16:16 ?761次閱讀