0. 題目

在FPGA上實現(xiàn)一個模塊，求32個輸入中的最大值和次大值，32個輸入由一個時鐘周期給出。（題目來自論壇，面試題，如果覺得不合適請留言刪除）

從我個人的觀點來看，這是一道很好的面試題目：

其一是這大概是某些機器學(xué)習(xí)算法實現(xiàn)過程中遇到的問題的簡化，是很有意義的一道題目；
其二是這道題目不僅要求FPGA代碼能力，還有很多可以在算法上優(yōu)化的可能；

當(dāng)然，輸入的位寬可能會影響最終的解題思路和最終的實現(xiàn)可能性。但位寬在一定范圍內(nèi)，譬如8或者32，解題的方案應(yīng)該都是一致的，只是會影響最終的頻率。后文針對這一題目做具體分析。（題目沒有說明重復(fù)元素如何處理，這里認為最大值和次大值可以是一樣的，即計算重復(fù)元素）

1. 解法

從算法本身來看，找最大值和次大值的過程很簡單；通過兩次遍歷：第一次求最大值，第二次求次大值; 算法復(fù)雜度是O(2n)。FPGA顯然不可能在一個周期內(nèi)完成如此復(fù)雜的操作，一般需要流水設(shè)計。這一方法下，整個結(jié)構(gòu)是這樣的

通過比較，求最大值，通過流水線實現(xiàn)兩兩之間的比較，32-16-8-4-2-1通過5個clk的延遲可以求得最大值；
由于需要求取次大值，因此需要確定最大值的位置，在求最大值的過程中需要維持最大值的坐標；
最大值坐標處取值清零（置為最?。?/p>
通過流水線實現(xiàn)兩兩之間的比較，32-16-8-4-2-1，再經(jīng)過5個clk的延遲可以求得次大值；

這種解法有若干個缺點，包括：延遲求最大值和次大值分別需要5clk延時，總延遲會超過10個cycles；資源占用較高，維持最大值坐標和清零操作耗費了較多資源，同時為了計算次大值，需要將輸入寄存若干個周期，寄存器消耗較多。

另一個種思路考慮同時求最大值和次大值，由于這一邏輯較為復(fù)雜，可以將其流水化，如下圖。(以8輸入為例，32輸入需要增加兩級)

其中sort模塊完成對4輸入進行排序，得到最大值和次大值輸出的功能。4個數(shù)的排序較為復(fù)雜，這一過程大概需要2-3個cycles完成。對于32輸入而言，輸入數(shù)據(jù)經(jīng)過32-16-8-4-2輸出得到結(jié)果，延遲大概也有10個周期。

2. 分治

如果需要在FPGA上實現(xiàn)一個特定的算法，那么去找一個合適的方法去實現(xiàn)就好了；但如果是要實現(xiàn)一個特定的功能，那么需要找一個優(yōu)秀的且適合FPGA實現(xiàn)的方法。

求最大值和次大值是一個很不完全的排序，通過簡單的查找復(fù)雜度為O(2n)，且不利于硬件實現(xiàn)。對于排序而言，無論快速排序或者歸并排序都用了分治的思想，如果我們試圖用分治的思想來解決這一問題?？紤]當(dāng)只有2個輸入時，通過一個比較就可以得到輸出，此時得到的是一個長度為2的有序數(shù)組。如果兩個有序數(shù)組，那么通過兩次比較就可以得到最大值和次大值。采用歸并排序的思想，查找最大值和次大值的復(fù)雜度為O(1.5n)(即為n/2+n/2+n/4… ,不知道有沒有算錯）。采用歸并排序的思想，從算法時間復(fù)雜度上看更為高效了。

那么這一方案是否適合FPGA實現(xiàn)呢，答案是肯定的。分治的局部性適合FPGA的流水實現(xiàn)，框圖如下。(以8輸入為例，32輸入需要增加兩級)

其中meg模塊內(nèi)部有兩級的比較器，一般而言1clk就可以完成，輸入數(shù)據(jù)經(jīng)過32-32-16-8-4-2得到結(jié)果，延遲為5個時鐘周期。實現(xiàn)代碼如下

module test#(
parameter DW = 8
)
(
input clk,
input [32*DW-1 :0] din,
output [DW-1:0] max1,
output [DW-1:0] max2
);


wire[DW-1:0] d[31:0];
generate
    genvar i;
    for(i=0;i<32;i=i+1)
    begin:loop_assign
        assign d[i] = din[DW*i+DW-1:DW*i];
    end
endgenerate


// stage 1,comp
reg[DW-1:0] s1_max[15:0];
reg[DW-1:0] s1_min[15:0];
generate
    for(i=0;i<16;i=i+1)
    begin:loop_comp
        always@(posedge clk)
            if(d[2*i]>d[2*i+1])begin
                s1_max[i] <= d[2*i];
                s1_min[i] <= d[2*i+1];
            end
            else begin
                s1_max[i] <= d[2*i+1];
                s1_min[i] <= d[2*i];
            end
    end
endgenerate


// stage 2,
wire[DW-1:0] s2_max[7:0];
wire[DW-1:0] s2_min[7:0];
generate
    for(i=0;i<8;i=i+1)
    begin:loop_megs2
        meg u_s2meg(
            .clk(clk),
            .g1_max(s1_max[2*i]),
            .g1_min(s1_min[2*i]),
            .g2_max(s1_max[2*i+1]),
            .g2_min(s1_min[2*i+1]),
            .max1(s2_max[i]),
            .max2(s2_min[i])
        );
    end
endgenerate
// stage 3,
wire[DW-1:0] s3_max[3:0];
wire[DW-1:0] s3_min[3:0];
generate
    for(i=0;i<4;i=i+1)
    begin:loop_megs3
        meg u_s3meg(
            .clk(clk),
            .g1_max(s2_max[2*i]),
            .g1_min(s2_min[2*i]),
            .g2_max(s2_max[2*i+1]),
            .g2_min(s2_min[2*i+1]),
            .max1(s3_max[i]),
            .max2(s3_min[i])
        );
    end
endgenerate


// stage 4,
wire[DW-1:0] s4_max[1:0];
wire[DW-1:0] s4_min[1:0];
generate
    for(i=0;i<2;i=i+1)
    begin:loop_megs4
        meg u_s4meg(
            .clk(clk),
            .g1_max(s3_max[2*i]),
            .g1_min(s3_min[2*i]),
            .g2_max(s3_max[2*i+1]),
            .g2_min(s3_min[2*i+1]),
            .max1(s4_max[i]),
            .max2(s4_min[i])
        );
    end
endgenerate


// stage 5,
meg u_s5meg(
    .clk(clk),
    .g1_max(s4_max[0]),
    .g1_min(s4_min[0]),
    .g2_max(s4_max[1]),
    .g2_min(s4_min[1]),
    .max1(max1),
    .max2(max2)
);
endmodule


module meg#(
parameter DW = 8
)
(
input clk,
input [DW-1 :0] g1_max,
input [DW-1 :0] g1_min,
input [DW-1 :0] g2_max,
input [DW-1 :0] g2_min,
output reg [DW-1:0] max1,
output reg [DW-1:0] max2
);
always@(posedge clk)
begin
    if(g1_max>g2_max) begin
        max1 <= g1_max;
        if(g2_max>g1_min)
            max2 <= g2_max;
        else
            max2 <= g1_min;
    end
    else begin
        max1 <= g2_max;
        if(g1_max>g2_min)
            max2 <= g1_max;
        else
            max2 <= g2_min;
    end
end
endmodule

3. 其他

簡單測試了上面的代碼，在上一代器件上（20nm FPGA），8bit數(shù)據(jù)輸入模塊能綜合到很高的頻率，邏輯級數(shù)大概是5級左右，對于整個工程而言瓶頸基本不會出現(xiàn)在這一部分。32bit數(shù)據(jù)輸入由于數(shù)據(jù)位寬太大，頻率不會太高，但是通過將meg模塊做一級流水，也幾乎不會成為整個系統(tǒng)的瓶頸。

32bit32輸入情況下，數(shù)據(jù)輸入位寬為1024（不是IO輸入，是內(nèi)部信號）。之前在通信/數(shù)字信號處理方面可能不會用到這么大位寬的數(shù)據(jù)，但對于AI領(lǐng)域FPGA的應(yīng)用，數(shù)千比特的輸入應(yīng)該是很平常的，這的確會影響最終FPGA上實現(xiàn)的效果。要想讓機器學(xué)習(xí)算法在FPGA上跑得更好，還需要算法和FPGA共同努力才是。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

FPGA

FPGA

+關(guān)注

關(guān)注
1624

文章
21573

瀏覽量
600653
模塊

模塊

+關(guān)注

關(guān)注
7

文章
2630

瀏覽量
47221
寄存器

寄存器

+關(guān)注

關(guān)注
31

文章
5274

瀏覽量
119667
機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8325

瀏覽量
132194

原文標題：3. 其他

文章出處：【微信號：ZYNQ，微信公眾號：ZYNQ】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

搜索歷史

在FPGA上實現(xiàn)一個模塊，求32個輸入中的最大值和次大值

1. 解法

2. 分治

3. 其他

評論

有關(guān)圖形最大值提取問題

DAQmx中的最大值最小值的設(shè)定

怎么設(shè)置波形體表的兩個Y軸的最大值

labview中怎么判斷十個數(shù)值中的最大值和最小值

怎么查找一個數(shù)組里面與最大值最近的極大值??？

請問C6713找最大值和次大值的可行方法？

AD9235的使用穩(wěn)定性未作出找到最大值的操作

四輸入最小最大值選擇電路

FPGA上如何求32個輸入的最大值和次大值：分治

交流電的有效值、最大值和平均值

python中input怎么輸入3個值

jvm配置metaspace最大值的參數(shù)

BUCK電路占空比最小值和最大值的限制因素分別是什么？

二極管擊穿電壓是最大值還是有效值

三相電流有效值和最大值關(guān)系

搜索歷史

在FPGA上實現(xiàn)一個模塊，求32個輸入中的最大值和次大值

1. 解法

2. 分治

3. 其他

評論

在FPGA上實現(xiàn)一個模塊，求32個輸入中的最大值和次大值