首個無需依賴SAM的高效像素級推理大模型PixelLM問世

多模態(tài)大模型爆發(fā)，準(zhǔn)備好進(jìn)入圖像編輯、自動駕駛和機器人技術(shù)等細(xì)粒度任務(wù)中實際應(yīng)用了嗎？

目前大多數(shù)模型的能力還是局限于生成對整體圖像或特定區(qū)域的文本描述，在像素級理解方面的能力（例如物體分割）相對有限。

針對這個問題，一些工作開始探索借助多模態(tài)大模型來處理用戶的分割指令（例如，“請分割出圖片中富含維生素C的水果”）。

然而，市面上的方法都存在兩個主要缺點：

1)?無法處理涉及多個目標(biāo)對象的任務(wù)，而這在現(xiàn)實世界場景中是不可或缺的；

2)?依賴于像SAM這樣的預(yù)訓(xùn)練圖像分割模型，而SAM的一次前向傳播需要的計算量已經(jīng)足夠 Llama-7B產(chǎn)生500多個token了。

為了解決此問題，字節(jié)跳動智能創(chuàng)作團隊聯(lián)合北京交通大學(xué)、北京科技大學(xué)的研究人員提出了首個無需依賴SAM的高效像素級推理大模型PixelLM。

相比之前的工作，PixelLM的優(yōu)勢在于：

能夠熟練處理任意數(shù)量的開放域目標(biāo)和多樣化的復(fù)雜推理分割任務(wù)。

避免了額外的、成本高昂的分割模型，提升了效率和對不同應(yīng)用的遷移能力。

進(jìn)一步，為了支持這一研究領(lǐng)域的模型訓(xùn)練和評估，研究團隊在LVIS數(shù)據(jù)集的基礎(chǔ)之上，借助GPT-4V構(gòu)建了一個面向多目標(biāo)推理分割場景的數(shù)據(jù)集MUSE，它包含20萬個以上的問題-答案對，涉及90萬個以上的實例分割掩碼。

為了實現(xiàn)上述的效果，這項研究具體是如何做的呢？

背后原理

如論文中的框架圖所示，PixelLM架構(gòu)十分簡潔，包括四個主要部分，后兩者是PixelLM的核心：

預(yù)訓(xùn)練的CLIP-ViT視覺編碼器

大語言模型

輕量級像素解碼器

分割碼表 Seg Codebook

Seg codebook包含可學(xué)習(xí)的tokens，它們用于編碼CLIP-ViT不同尺度上的目標(biāo)信息。然后，像素解碼器基于這些tokens和CLIP-ViT的圖像特征生成目標(biāo)分割結(jié)果。得益于這種設(shè)計，PixelLM可以在沒有外部分割模型的情況下生成高質(zhì)量的分割結(jié)果，顯著提高了模型效率。

根據(jù)研究人員的描述，Seg codebook內(nèi)的tokens可分為L組，每一組包含N個token，每個組對應(yīng)于來自CLIP-ViT視覺特征的一個尺度。

對于輸入的圖像，PixelLM從CLIP-ViT視覺編碼器產(chǎn)的圖像特征中提取出L個尺度的特征，其中最后一層涵蓋了全局圖像信息，會被LLM用作理解圖像內(nèi)容。

Seg codebook的tokens將會與文本指令及最后一層圖像特征一起輸入LLM中，以自回歸的形式產(chǎn)生輸出。而輸出中也將包含經(jīng)過LLM處理后的Seg codebook tokens，它們將與L個尺度的CLIP-ViT特征一起輸入到像素解碼器中產(chǎn)生最終的分割結(jié)果。

那么為什么還要設(shè)置每組包含N個token呢？研究人員結(jié)合下圖進(jìn)行了解釋：

在涉及多個目標(biāo)或目標(biāo)所包含的語義十分復(fù)雜的情景中，盡管LLM可以提供詳細(xì)的文本響應(yīng)，但僅使用單個token可能無法充分捕捉目標(biāo)語義的全部內(nèi)容。

為了增強模型在復(fù)雜推理情景下的能力，研究人員在每個尺度組內(nèi)引入多個token，并執(zhí)行一個token的線性融合操作。在token傳入解碼器之前，使用線性投影層將每個分組內(nèi)的token合并。

下圖展示了每組內(nèi)多個token時的效果。注意力圖是每個token經(jīng)過解碼器處理后的樣子，這個可視化結(jié)果表明，多個token提供了獨特且互補的信息，從而實現(xiàn)了更有效的分割輸出。

此外，為了增強模型區(qū)分多個目標(biāo)的能力，PixelLM還額外設(shè)計了一個Target Refinement Loss。

MUSE數(shù)據(jù)集

盡管已經(jīng)提出了上述解決方案，但為了充分發(fā)揮模型的能力，模型仍然需要適當(dāng)?shù)挠?xùn)練數(shù)據(jù)?；仡櫮壳翱捎玫墓_數(shù)據(jù)集，發(fā)現(xiàn)現(xiàn)有的數(shù)據(jù)存在以下主要限制：

1) 對物體細(xì)節(jié)的描述不夠充足；
2) 缺乏具有復(fù)雜推理和多種目標(biāo)數(shù)量的問題-答案對。

為了解決這些問題，研究團隊借助GPT-4V構(gòu)建了一個自動化的數(shù)據(jù)標(biāo)注流水線，并由此產(chǎn)生了MUSE數(shù)據(jù)集。下圖展示了MUSE生成時所用到的Prompt及產(chǎn)生的數(shù)據(jù)示例。

在MUSE中，所有實例掩碼都來自LVIS數(shù)據(jù)集，并且額外添加了根據(jù)圖像內(nèi)容生成的詳細(xì)文本描述。MUSE包含了24.6萬個問題-答案對，每個問題-答案對平均涉及3.7個目標(biāo)物體。此外，研究團隊對數(shù)據(jù)集進(jìn)行了詳盡的統(tǒng)計分析：

類別統(tǒng)計：MUSE中有來自原始LVIS數(shù)據(jù)集的1000多個類別，以及90萬個具有獨特描述的實例，這些描述基于問題-答案對的上下文而變化。圖(a)顯示了所有問題-答案對中每個類別的實例數(shù)量。

Token數(shù)目統(tǒng)計：圖(b)展示了實例描述的token數(shù)目分布，其中有的實例描述包含了超過100個tokens。這些描述不僅限于簡單的類別名稱；相反，它們通過基于GPT-4V的數(shù)據(jù)生成流程，大量豐富了每個實例的詳細(xì)信息，涵蓋了外觀、屬性和與其他對象的關(guān)系等。數(shù)據(jù)集中信息的深度和多樣性增強了訓(xùn)練模型的泛化能力，使其能夠有效地解決開放域問題。

目標(biāo)數(shù)目統(tǒng)計：圖（c）展示了每個問題-答案對中目標(biāo)數(shù)量的統(tǒng)計數(shù)據(jù)。平均目標(biāo)數(shù)量為3.7，最大目標(biāo)數(shù)量可達(dá)34個。這個數(shù)字可以覆蓋單個圖像的大多數(shù)目標(biāo)推理場景。

算法測評

研究團隊在三個benchmark上評測了PixelLM的性能，包括MUSE benchmark, referring segmentation benchmark，以及multi-referring segmentation benchmark. 在multi-referring segmentation benchmark中，研究團隊要求模型在一個問題中連續(xù)地分割出referring segmentation benchmark中每幅圖像包含的多個目標(biāo)。

同時，由于PixelLM是首個處理涉及多目標(biāo)復(fù)雜像素推理任務(wù)的模型，研究團隊建立了四個baseline以對模型進(jìn)行比較分析。

其中三個baseline基于與PixelLM最相關(guān)工作LISA，包括：

1）原始的LISA；

2）LISA_rec: 先將問題輸入LLAVA-13B以得到目標(biāo)的文本回復(fù)，再用LISA分割這些文本；

3）LISA_aug：直接將MUSE加入LISA的訓(xùn)練數(shù)據(jù)。

4) 另外一個則是不使用LLM的通用分割模型SEEM。

在三個benchmark的絕大多數(shù)指標(biāo)上，PixelLM的性能均優(yōu)于其他方法，且由于PixelLM不依賴于SAM，其TFLOPs遠(yuǎn)遠(yuǎn)低于同尺寸的模型。

審核編輯：黃飛

閱讀全文

字節(jié)(13371) 字節(jié)(13371)
GPT(14803) GPT(14803)
大模型(810) 大模型(810)

如何使用FasterTransformer進(jìn)行單機及分布式模型推理

最近幾個月，隨著ChatGPT的現(xiàn)象級表現(xiàn)，大模型如雨后春筍般涌現(xiàn)。而模型推理是抽象的算法模型觸達(dá)具體的實際業(yè)務(wù)的最后一公里。但是在這個環(huán)節(jié)中，仍然還有很多已經(jīng)是大家共識的痛點和訴求，比如：任何

2023-05-18 14:35:17

2000

如何在SAM時代下打造高效的高性能計算大模型訓(xùn)練平臺

在一起，從而顯著提升模型的泛化能力。SAM 的設(shè)計初衷是簡化圖像分割的過程，減少對專業(yè)建模知識的依賴，并降低大規(guī)模訓(xùn)練所需的計算資源。

2023-08-21 04:02:50

1293

AscendCL快速入門——模型推理篇（上）

一、概述本文介紹了AscendCL模型推理相關(guān)知識，介紹了AscendCL接口加載離線模型，為離線模型準(zhǔn)備數(shù)據(jù)結(jié)構(gòu)以及調(diào)用離線模型進(jìn)行推理的過程。簡單來說，曻騰的AscendCL的推理工程可以問為

2023-08-24 11:04:14

Dllite_micro （輕量級的 AI 推理框架）

DLLite-Micro 是一個輕量級的 AI 推理框架，可以為 OpenHarmony OS 的輕量設(shè)備和小型設(shè)備提供深度模型的推理能力DLLite-Micro 向開發(fā)者提供清晰、易上手的北向接口

2021-08-05 11:40:11

EasyGo使用筆記丨極簡操作，無需編譯，助力高效實驗室高效發(fā)展

道。本次實驗快速圓滿完成，得益于NetBox操作簡單、無需編譯的特性，能實現(xiàn)快速上手且精準(zhǔn)驗證的體驗，助力科研高效發(fā)展。 NetBox 是一款基于FPGA的電力電子實時仿真產(chǎn)品。FPGA無需編譯，直接

2022-12-14 10:24:50

HarmonyOS：使用MindSpore Lite引擎進(jìn)行模型推理

場景介紹 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件設(shè)備 AI 模型推理的功能，目前已經(jīng)在圖像分類、目標(biāo)識別、人臉識別、文字識別等應(yīng)用中廣泛使用。本文介紹

2023-12-14 11:41:13

NVIDIA 在首個AI推理基準(zhǔn)測試中大放異彩

首個獨立AI推理基準(zhǔn)測試 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市場中最大、同時也是最具競爭力的領(lǐng)域，業(yè)內(nèi)此前一直希望能夠有一套客觀的推理性能測試指標(biāo)。在參與

2019-11-08 19:44:51

k210可以采集傳感器的數(shù)據(jù)進(jìn)行模型的推理嗎？

2023-09-14 08:52:56

pytorch模型轉(zhuǎn)為rknn后沒有推理結(jié)果

使用rknn的api讀取我的模型，進(jìn)行轉(zhuǎn)換api可以成功轉(zhuǎn)換出rknn模型，但遇到的問題是：我使用測試數(shù)據(jù)調(diào)用rknn.inference進(jìn)行推理，每一次的輸出結(jié)果都為[array([nan, nan

2023-01-11 18:45:48

【LuckFox Pico Plus開發(fā)板免費試用】RKNN模型推理測試

為開發(fā)者提供一個簡單且高效的開發(fā)平臺。雖然LuckFox Pico作為入門級開發(fā)板只有幾十塊錢，但是它具有人工智能協(xié)處理器NPU，也可以實現(xiàn)人工智能的推理工作。瑞芯微 RV1103芯片采用了和RK3568

2023-11-11 16:51:53

【先楫HPM5361EVK開發(fā)板試用體驗】：4、TinyML測試(1)

設(shè)備的資源限制。此外，TinyML還依賴于優(yōu)化的推理引擎和針對嵌入式設(shè)備的硬件加速器，以實現(xiàn)高效的模型推理。 TinyML的應(yīng)用領(lǐng)域非常廣泛，包括智能傳感器、健康監(jiān)測、物聯(lián)網(wǎng)、智能音頻處理、自動駕駛

2023-12-22 10:12:25

【圖書分享】《基于MDK的SAM3處理器開發(fā)應(yīng)用》

SAM3U處理器的內(nèi)部結(jié)構(gòu)　　1.3.3 SAM3U系列MCU的優(yōu)點　　1.3.4 SAM3 MCU的開發(fā)工具第2章 CortexM3 處理器編程模型　2.1 寄存器組　　2.1.1 通用寄存器

2014-03-13 11:00:26

【愛芯派 Pro 開發(fā)板試用體驗】在愛芯派部署ChatGLM3（一）

/main/detail。ChatGLM3 的推理框架是基于最新的高效動態(tài)推理和顯存優(yōu)化技術(shù)構(gòu)建的，在相同硬件、模型條件下，相較于目前最佳的開源實現(xiàn)，對比伯克利大學(xué)推出的 vLLM 以及 Hugging

2023-12-17 22:54:49

【飛凌RK3568開發(fā)板試用體驗】RKNN模型推理測試

研的人工智能協(xié)處理器NPU，并且提供了RKNN-Toolkit。今天就介紹一下如何使用RKNN模型進(jìn)行推理應(yīng)用程序開發(fā)。一、推理應(yīng)用程序的基本流程RKNN 是瑞芯微（Rockchip） NPU平臺

2022-12-08 19:06:16

一種不依賴于棋盤格等輔助標(biāo)定物體實現(xiàn)像素級相機和激光雷達(dá)自動標(biāo)定的方法

主要內(nèi)容本文提出了一種不依賴于棋盤格等輔助標(biāo)定物體，實現(xiàn)像素級相機和激光雷達(dá)自動標(biāo)定的方法。方法直接從點云中提取3D邊特征，一避免遮擋問題，并且使用了精確度更高的深度連續(xù)邊。文中首先指出：以下四種

2021-09-01 07:42:19

使用rk3588多npu推理模型，模型總推理時間還增加了，這怎么解釋

2023-11-05 18:22:42

全志XR806+TinyMaix，在全志XR806上實現(xiàn)ML推理

關(guān)于 TinyMaixTinyMaix是面向單片機的超輕量級的神經(jīng)網(wǎng)絡(luò)推理庫，即TinyML推理庫，可以讓你在任意單片機上運行輕量級深度學(xué)習(xí)模型~設(shè)計原則：易用性 > 移植性 &

2022-09-21 09:56:29

壓縮模型會加速推理嗎？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡單的 CNN 導(dǎo)入到 STM32L462RCT我發(fā)現(xiàn)壓縮模型對推理時間沒有影響。aiRun 程序在 8

2023-01-29 06:24:08

好奇~！谷歌的 Edge TPU 專用 ASIC 旨在將機器學(xué)習(xí)推理能力引入邊緣設(shè)備

出色的 ML 推理性能。例如，其能夠以良好的功率表現(xiàn)執(zhí)行 MobileNet v2 等最先進(jìn)的移動視覺模型，且 fps 可達(dá) 100 以上。這意味著你將能夠在符合節(jié)能與隱私保護要求的前提下，將快速 ML

2019-03-05 21:20:23

如何判斷推理何時由GPU或NPU在iMX8MPlus上運行？

當(dāng)我為 TFLite 模型運行基準(zhǔn)測試時，有一個選項 --nnapi=true我如何知道 GPU 和 NPU 何時進(jìn)行推理？謝謝

2023-03-20 06:10:30

如何提高YOLOv4模型的推理性能？

使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進(jìn)行了訓(xùn)練。將權(quán)重轉(zhuǎn)換為 ONNX 文件，然后轉(zhuǎn)換為中間表示（IR）。無法確定如何獲得更好的推理性能。

2023-08-15 06:58:00

實現(xiàn)具有RTD級精度且無需校準(zhǔn)快速溫度傳感器設(shè)計

如何實現(xiàn)具有RTD級精度且無需校準(zhǔn)快速溫度傳感器設(shè)計

2021-01-07 06:27:14

應(yīng)用CPLD及EPP技術(shù)對CCD信號像素級的高速采集，不看肯定后悔

EPP技術(shù)和CPLD技術(shù)介紹應(yīng)用CPLD及EPP技術(shù)對CCD信號像素級的高速采集

2021-04-08 06:11:10

怎樣使用PyTorch Hub去加載YOLOv5模型

PyTorch Hub 加載預(yù)訓(xùn)練的 YOLOv5s 模型，model并傳遞圖像進(jìn)行推理。'yolov5s'是最輕最快的 YOLOv5 型號。有關(guān)所有可用模型的詳細(xì)信息，請參閱自述文件。詳細(xì)示例此示例

2022-07-22 16:02:42

怎樣去解決rk1808相同模型推理速度變慢的問題呢

　　rk1808 相同模型速度變慢：　　rknn_server 0.9.4 （2078225 build： 2019-03-07 20:07:28）　　librknn_runtime version

2022-04-21 11:36:29

求助，為什么將不同的權(quán)重應(yīng)用于模型會影響推理性能？

生成兩個 IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的類似模型，以不同的 fps （27fps 和 6fps）運行更多樣化的權(quán)重是否會影響 Myriad X 上的推理性能？

2023-08-15 07:00:25

深度剖析OpenHarmony AI調(diào)度管理與推理接口

：管理資源引擎的相關(guān)內(nèi)容。Engine：推理引擎，推理的主要功能都由它管理。PluginManager：管理框架調(diào)度器的配置與工具。插件：管理框架與推理模型的加載、卸載。AIInterpreter：手機

2022-03-25 11:15:36

用tflite接口調(diào)用tensorflow模型進(jìn)行推理

摘要本文為系列博客tensorflow模型部署系列的一部分，用于實現(xiàn)通用模型的部署。本文主要實現(xiàn)用tflite接口調(diào)用tensorflow模型進(jìn)行推理。相關(guān)源碼見鏈接引言本文為系列博客

2021-12-22 06:51:18

經(jīng)濟高效的入門級系統(tǒng)平臺

研華公司近期新推出了一款經(jīng)濟高效的入門級系統(tǒng)平臺。研華ARK-1310擁有緊湊型、無風(fēng)扇的鋁制機箱外殼，可安裝在任何大型系統(tǒng)中，也可作為獨立平臺單獨應(yīng)用。ARK-1310小巧緊湊、堅固耐用，因此非常適合各種惡劣環(huán)境應(yīng)用和自動化控制應(yīng)用。

2019-07-23 06:21:45

請問模型推理只用到了kpu嗎？可以cpu，kpu，fft異構(gòu)計算嗎？

2023-09-14 08:13:24

請問在新CPU上推斷INT8模型的速度是否比舊CPU快？

與采用舊 CPU 的推理相比，在新 CPU 上推斷的 INT8 模型的推理速度更快。

2023-08-15 08:28:42

SA算法在基于模型推理入侵檢測中的應(yīng)用

鑒于模型推理的入侵檢測方法，需要在龐大的審計記錄空間中搜索巨量的攻擊腳本子集中的最優(yōu)值，對于這一NP類完全問題，提出了應(yīng)用模擬退火算法。并建立了攻擊檢測的優(yōu)化問

2008-11-18 00:18:36

數(shù)據(jù)庫弱函數(shù)依賴推理規(guī)則挖掘方法

數(shù)據(jù)庫推理問題是數(shù)據(jù)庫安全研究的重要分支方向，推理通道的分析是解決推理問題的基礎(chǔ)。傳統(tǒng)推理規(guī)則無法處理不完全符合函數(shù)依賴的數(shù)據(jù)關(guān)系，針對這一問題，本文提出了弱

2009-12-25 14:58:04

首個32 GB microSDHC存儲卡問世

首個32 GB microSDHC存儲卡問世　　 SanDisk（閃迪）宣布，閃迪專為手機打造的的大容量、移動式存儲卡 ——32 gigabyte (GB)1 閃迪 microSDHC存儲卡——現(xiàn)已上市。全新

2010-03-25 17:20:33

1027

我國自主研發(fā)的高效彩色太陽能電池在長問世

我國自主研發(fā)的高效彩色太陽能電池在長問世記者今日從市科技局獲悉，繼湖南制造的高效彩色雙玻太陽能電池組件亮相上海世博會

2010-04-12 08:34:06

432

我國首個自主研發(fā)的地球系統(tǒng)模型宣布開源

模型

北京中科同志科技股份有限公司發(fā)布于 2023-11-18 09:59:01

什么是像素流送？像素流送如何應(yīng)用？

芯片像素

dianliang02發(fā)布于 2023-12-13 15:56:04

超像素詞包模型與SVM分類的圖像標(biāo)注_於敏

2017-03-19 19:03:46

貝葉斯IP網(wǎng)絡(luò)擁塞鏈路推理

針對CLINK算法在路由改變時擁塞鏈路推理性能下降的問題，建立一種變結(jié)構(gòu)離散動態(tài)貝葉斯網(wǎng)模型，通過引入馬爾可夫性及時齊性假設(shè)簡化該模型，并基于簡化模型提出一種IP網(wǎng)絡(luò)擁塞鏈路推理算法（VSDDB

2018-01-16 18:46:26

無ROM Cortex? -M器件的SAM-BA? 監(jiān)視器及器件接口介紹

SAM Boot Assistant（SAM-BA）允許使用USB或UART主機進(jìn)行在系統(tǒng)編程（ISP），而無需任何外部編程接口。

2018-07-20 10:48:11

5195

歐司朗助力凱迪拉克實現(xiàn)業(yè)內(nèi)首個“無需雙手”的駕駛技術(shù)

日前，歐司朗光電半導(dǎo)體和Joyson Safety Systems 公司為新款凱迪拉克CT6配備了一款創(chuàng)新的半自動駕駛系統(tǒng)。這款系統(tǒng)名為“超級巡航”（Super Cruise），是業(yè)內(nèi)首個真正的在高速上實現(xiàn)“無需雙手”的駕駛技術(shù)。

2018-09-13 15:10:47

2811

阿里開源首個移動AI項目，淘寶同款推理引擎

阿里開源首個移動AI項目，淘寶同款推理引擎，這是阿里開源的首個移動AI項目，已經(jīng)用于阿里手機淘寶、手機天貓、優(yōu)酷等20多個應(yīng)用之中。覆蓋直播、短視頻、搜索推薦、商品圖像搜索、互動營銷、權(quán)益發(fā)放、安全風(fēng)控等場景。在IoT等移動設(shè)備場景下，也有若干應(yīng)用。

2019-07-03 09:53:29

284

浪潮發(fā)布全球首個FPGA高效計算框架

浪潮宣布開源發(fā)布基于FPGA的高效AI計算框架TF2,這一框架的推理引擎采用全球首創(chuàng)的DNN移位計算技術(shù),結(jié)合多項最新優(yōu)化技術(shù),可實現(xiàn)通用深度學(xué)習(xí)模型基于FPGA芯片的高性能低延遲部署。

2019-09-09 14:17:53

932

浪潮全球首發(fā)完整方案的FPGA高效計算框架

浪潮宣布開源發(fā)布基于FPGA的高效AI計算框架TF2,這一框架的推理引擎采用全球首創(chuàng)的DNN移位計算技術(shù),結(jié)合多項最新優(yōu)化技術(shù),可實現(xiàn)通用深度學(xué)習(xí)模型基于FPGA芯片的高性能低延遲部署,這也是全球首個包含從模型裁剪、壓縮、量化到通用模型實現(xiàn)等優(yōu)化算法的完整方案的FPGA上AI開源框架。

2019-09-23 15:04:56

1799

中興通訊在Linux基金會的首個開源社區(qū)正式成立

Adlik是LF AI中首個聚焦深度學(xué)習(xí)模型推理階段的項目，其宗旨是使深度學(xué)習(xí)模型能夠高效地運行在多種部署環(huán)境下。

2019-10-11 09:15:53

1420

中國首個3.35米直徑火箭長筒段貯箱成功問世

來自中國航天科技集團有限公司八院消息，近日，中國首個3.35米直徑火箭長筒段貯箱在八院800所問世。后續(xù)，該技術(shù)將應(yīng)用于新一代運載火箭中。

2021-02-27 09:38:08

1546

貝葉斯網(wǎng)絡(luò)模型之一依賴估測器模型研究

分類問題是數(shù)據(jù)挖掘和機器學(xué)習(xí)領(lǐng)域硏究的重點問題，貝葉斯網(wǎng)絡(luò)模型因其簡單髙效的特點而廣泛應(yīng)用于分類問題。一依賴估測器（ODE）模型作為半監(jiān)督學(xué)習(xí)貝葉斯網(wǎng)絡(luò)模型中的經(jīng)典模型，受到研究人員的廣泛關(guān)注?，F(xiàn)有

2021-03-17 15:05:10

從SAM9x5移植到SAM9X60

本應(yīng)用筆記介紹將基于 SAM9x5 的設(shè)計移植到 SAM9X60 器件需進(jìn)行的硬件和軟件更改。SAM9X60 器件的性能優(yōu)于SAM9x5。

2021-03-30 16:26:31

一種基于機器學(xué)習(xí)的流簇大小推理模型

數(shù)據(jù)中心網(wǎng)絡(luò)需要更加高效的推理模型提升流簇大小判斷的準(zhǔn)確性和敏感性。提岀了一種基于機器學(xué)習(xí)的流簇大小推理模型（ Mlcoflow），利用極限學(xué)習(xí)杋（ELM）以最小訓(xùn)練誤差為求解目標(biāo)建立推理模型，并且使用不完全信息建模以提升敏感度。實驗證

2021-04-02 11:38:16

基于像素級生成對抗網(wǎng)絡(luò)的圖像彩色化模型

2021-06-27 11:02:01

基于變量依賴關(guān)系模型的變量重要性度量綜述

2021-07-02 14:44:08

NVIDIA技術(shù)助力線上大模型推理

自然語言理解、匹配排序等等，這些模型的訓(xùn)練和推理都大量依賴于NVIDIA GPU，尤其在推理方面，NVIDIA GPU及相應(yīng)的解決方案都滿足了業(yè)務(wù)所需的延遲和吞吐要求。微信搜索業(yè)務(wù)需要更高效平臺微信搜索業(yè)務(wù)由多個子模塊構(gòu)成，包括查

2021-10-28 15:28:12

1551

深度學(xué)習(xí)工程之道|MegEngine推理性能優(yōu)化技術(shù)綜述，CPU上極限加速

MegEngine「訓(xùn)練推理一體化」的獨特范式，通過靜態(tài)圖優(yōu)化保證模型精度與訓(xùn)練時一致，無縫導(dǎo)入推理側(cè)，再借助工業(yè)驗證的高效卷積優(yōu)化技術(shù)...

2022-02-07 10:59:49

如何實現(xiàn)高效的部署醫(yī)療影像推理

的時延變長，GPU 使用效率不高。醫(yī)療影像推理的另一個需要考慮的問題是如何實現(xiàn)高效的部署。我們往往需要部署多個醫(yī)療影像 AI 應(yīng)用，那么如何去調(diào)度多個模型，如何并發(fā)處理多個請求，并充分利用 GPU 資源成為挑戰(zhàn)。

2022-04-09 08:18:22

1042

如何使用Triton進(jìn)行高效的推理部署

一個完整的醫(yī)療影像推理流程一般包含數(shù)據(jù)的前處理、AI 推理以及數(shù)據(jù)后處理這幾部分。

2022-04-10 15:06:09

2396

DGX SuperPOD助力助力織女模型的高效訓(xùn)練

　　“強悍的織女模型在京東探索研究院建設(shè)的全國首個基于 DGX SuperPOD 架構(gòu)的超大規(guī)模計算集群 “天琴α” 上完成訓(xùn)練，該集群具有全球領(lǐng)先的大規(guī)模分布式并行訓(xùn)練技術(shù)，其近似線性加速比的數(shù)據(jù)、模型、流水線并行技術(shù)持續(xù)助力織女模型的高效訓(xùn)練。”

2022-04-13 15:13:11

783

基于e-CARE的因果推理相關(guān)任務(wù)

因果推理是人類的一項核心認(rèn)知能力。借助因果推理能力，人類得以理解已觀測到的各種現(xiàn)象，并預(yù)測將來可能發(fā)生的事件。然而，盡管當(dāng)下的各類因果推理模型已經(jīng)在現(xiàn)有的因果推理數(shù)據(jù)集上取得了令人印象深刻的性能，然而，這些模型與人類的因果推理能力相比仍存在顯著差距。

2022-05-16 16:21:26

1081

基于NVIDIA Triton的AI模型高效部署實踐

NVIDIA Triton 推理服務(wù)器(以前稱為 TensorRT 推理服務(wù)器)是一款開源軟件，可簡化深度學(xué)習(xí)模型在生產(chǎn)環(huán)境中的部署。借助 Triton 推理服務(wù)器，Devops 和 MLops

2022-06-28 15:49:47

1293

AI常識推理再突破單模型全球首次超過人類平均水平

??2022年7月25日，由科大訊飛承建的我國首個認(rèn)知智能全國重點實驗室榮登科學(xué)常識推理挑戰(zhàn)賽OpenBookQA榜首，創(chuàng)新性提出X-Reasoner模型，以準(zhǔn)確率94.2%的絕對優(yōu)勢奪冠，常識推理

2022-07-25 23:00:28

488

用于深度學(xué)習(xí)推理的高性能工具包

　　推理引擎用于部署應(yīng)用程序。使用部署管理器，您可以通過將模型、IR 文件、應(yīng)用程序和相關(guān)依賴項組裝到目標(biāo)設(shè)備的運行時包中來創(chuàng)建開發(fā)包。

2022-08-16 11:27:29

439

螞蟻鏈AIoT團隊與NVIDIA合作加速AI推理

螞蟻鏈 AIoT 團隊與 NVIDIA 合作，將量化感知訓(xùn)練(QAT)技術(shù)應(yīng)用于深度學(xué)習(xí)模型性能優(yōu)化中，并通過 NVIDIA TensorRT 高性能推理 SDK 進(jìn)行高效率部署，通過 INT8 推理，吞吐量提升了 3 倍，助力螞蟻鏈版權(quán) AI 平臺中的模型推理服務(wù)大幅降本增效。

2022-09-09 09:53:52

872

加速邊緣設(shè)備中計算機視覺和語音的AI推理模型

　　加速AI推理模型已成為一項基本任務(wù)，因為我們正朝著創(chuàng)建更復(fù)雜，更高效的AI應(yīng)用程序邁進(jìn)。靈活和完整的AI輔助是在快速增長的AI領(lǐng)域取得成功的關(guān)鍵組成部分。

2022-10-19 09:08:50

423

對您的 LED 進(jìn)行高效調(diào)光，無需檢測電阻器

2022-11-07 08:07:28

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

如果給語言模型生成一些 prompting，它還向人們展示了其解決復(fù)雜任務(wù)的能力。標(biāo)準(zhǔn) prompting 方法，即為使用少樣本的問答對或零樣本的指令的一系列方法，已經(jīng)被證明不足以解決需要多個推理步驟的下游任務(wù)（Chowdhery 等，2022）。

2023-02-02 16:15:26

772

GTC 2023：多模態(tài)短視頻模型推理優(yōu)化方案解析

　　多卡推理--流水線并行：將模型和數(shù)據(jù)切分，以流水線形式計算，提高GPU利用率。模型切分策略：依照各部分的計算時間和參數(shù)量設(shè)計。

2023-03-23 18:17:33

1921

SAM-Adapter：首次讓SAM在下游任務(wù)適應(yīng)調(diào)優(yōu)！

在這些基礎(chǔ)模型中，Segment Anything Model（SAM）作為一個在大型視覺語料庫上訓(xùn)練的通用圖像分割模型取得了顯著的突破。事實證明，SAM在不同的場景下具有成功的分割能力，這使得它在圖像分割和計算機視覺的相關(guān)領(lǐng)域邁出了突破性的一步。

2023-04-20 10:13:37

1061

SAM分割模型是什么？

SAM是一類處理圖像分割任務(wù)的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同，SAM可以處理所有類型的圖像。

2023-05-20 09:30:45

1380

第一篇綜述！分割一切模型(SAM)的全面調(diào)研

SAM 是一個提示型模型，其在 1100 萬張圖像上訓(xùn)練了超過 10 億個掩碼，實現(xiàn)了強大的零樣本泛化。許多研究人員認(rèn)為「這是 CV 的 GPT-3 時刻，因為 SAM 已經(jīng)學(xué)會了物體是什么的一般

2023-05-24 14:36:10

596

大模型時代下，普通科研人怎么辦？

所以，這篇arXiv的論文提出了一個簡單而有效的基于SAM大模型的視聽定位和分割框架，即AV-SAM，它可以生成與音頻相對應(yīng)的發(fā)聲對象掩碼。具體而言，利用SAM中預(yù)先訓(xùn)練的圖像編碼器的視覺特征，把它和音頻特征逐像素視聽融合來聚合跨模態(tài)表示

2023-05-24 16:00:02

500

SAM 到底是什么

的有這么強大嗎？讓我們一起通過本文了解詳情！ SAM 是一個由 Meta AI 實驗室推出的強大人工智能圖像分割應(yīng)用，可以自動識別哪些圖像像素屬于一個對象，并且對圖像中各個對象進(jìn)行自動風(fēng)格處理，可廣泛用于分析科學(xué)圖像、編輯照片等。 SAM 的完整應(yīng)用由一個圖片編碼器模型（encoder）

2023-06-12 10:46:56

2622

LeCun世界模型首個研究！自監(jiān)督視覺像人一樣學(xué)習(xí)和推理！

今日，Meta 推出了首個基于 LeCun 世界模型概念的 AI 模型。該模型名為圖像聯(lián)合嵌入預(yù)測架構(gòu)（Image Joint Embedding Predictive Architecture, I-JEPA），它通過創(chuàng)建外部世界的內(nèi)部模型來學(xué)習(xí)，比較圖像的抽象表示（而不是比較像素本身）。

2023-06-15 15:47:34

201

YOLOv8最新版本支持SAM分割一切

分割任何模型（Segment Anything Model - SAM）是一種突破性的圖像分割模型，可實現(xiàn)具有實時性能的快速分割。

2023-06-18 11:42:53

1027

教你如何用兩行代碼搞定YOLOv8各種模型推理

大家好，YOLOv8 框架本身提供的API函數(shù)是可以兩行代碼實現(xiàn) YOLOv8 模型推理，這次我把這段代碼封裝成了一個類，只有40行代碼左右，可以同時支持YOLOv8對象檢測、實例分割、姿態(tài)評估模型的GPU與CPU上推理演示。

2023-06-18 11:50:44

1891

基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測試大語言模型(LLM)的純因果推理能力

? 因果推理是人類智力的標(biāo)志之一。因果關(guān)系NLP領(lǐng)域近年來引起了人們的極大興趣，但其主要依賴于從常識知識中發(fā)現(xiàn)因果關(guān)系。本研究提出了一個基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)來測試大語言模型(LLM

2023-06-20 15:39:05

1223

構(gòu)建一個移動端友好的SAM方案MobileSAM

導(dǎo)讀本文提出一種"解耦蒸餾"方案對SAM的ViT-H解碼器進(jìn)行蒸餾，同時所得輕量級編碼器可與SAM的解碼器"無縫兼容"?。在推理速度方面，MobileSAM處理一張圖像僅需10ms

2023-06-30 10:59:08

673

FastSAM模型可實現(xiàn)25FPS的實時推理

比Meta的「分割一切模型」(SAM)更快的圖像分割工具，來了！最近中科院團隊開源了FastSAM模型，能以 50倍的速度達(dá)到與原始SAM相近的效果，并實現(xiàn)25FPS的實時推理。該成果

2023-07-03 17:06:08

630

如何使用NVIDIA Triton 推理服務(wù)器來運行推理管道

使用集成模型在 NVIDIA Triton 推理服務(wù)器上為 ML 模型管道提供服務(wù)

2023-07-05 16:30:34

1082

三種主流模型部署框架YOLOv8推理演示

深度學(xué)習(xí)模型部署有OpenVINO、ONNXRUNTIME、TensorRT三個主流框架，均支持Python與C++的SDK使用。對YOLOv5~YOLOv8的系列模型，均可以通過C++推理實現(xiàn)模型

2023-08-06 11:39:17

1677

對話三位IEEE專家：如何理解SAM視覺大模型

IEEE高級會員、天津理工大學(xué)教授、AR/VR技術(shù)專家羅訓(xùn)對記者表示，SAM是視覺領(lǐng)域的通用大模型，很多報道中把它比喻成視覺領(lǐng)域的ChatG－PT，SAM和ChatGPT的支撐技術(shù)和應(yīng)用場景都是不同的，但是在通用性這一點上，它們都是當(dāng)前技術(shù)發(fā)展趨勢的代表者。

2023-08-23 16:32:19

529

mlc-llm對大模型推理的流程及優(yōu)化方案

在 MLC-LLM 部署RWKV World系列模型實戰(zhàn)（3B模型Mac M2解碼可達(dá)26tokens/s）中提到要使用mlc-llm部署模型首先需要一個編譯過程，將原始的基于Realx搭建的模型

2023-09-26 12:25:55

383

主流大模型推理框架盤點解析

vLLM是一個開源的大模型推理加速框架，通過PagedAttention高效地管理attention中緩存的張量，實現(xiàn)了比HuggingFace Transformers高14-24倍的吞吐量。

2023-10-10 15:09:58

1556

TPU-MLIR量化敏感層分析，提升模型推理精度

背景介紹TPU-MLIR編譯器可以將機器學(xué)習(xí)模型轉(zhuǎn)換成算能芯片上運行的bmodel模型。由于浮點數(shù)的計算需要消耗更多的計算資源和存儲空間，實際應(yīng)用中往往采用量化后的模型（也稱定點模型）進(jìn)行推理。相比

2023-10-10 10:17:42

484

介紹一款基于昆侖芯AI加速卡的高效模型推理部署框架

昆侖芯科技公眾號全新欄目“用芯指南”重磅推出！面向AI行業(yè)技術(shù)從業(yè)者，系列好文將提供手把手的昆侖芯產(chǎn)品使用指南。第一期圍繞昆侖芯自研效能工具——昆侖芯Anyinfer展開，這是一款基于昆侖芯AI加速卡的高效模型推理部署框架。種種行業(yè)痛點，昆侖芯Anyinfer輕松搞定。

2023-10-17 11:16:43

799

全球首個人體器官芯片醫(yī)藥大模型在南京江寧問世

近日，位于江寧高新區(qū)的江蘇運動健康研究院傳來好消息，在東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院院長、江蘇運動健康研究院院長顧忠澤教授團隊與華為公司的強強聯(lián)合下，全球首個人體器官芯片醫(yī)藥大模型近日在江寧問世

2023-10-20 08:43:41

261

澎峰科技發(fā)布大模型推理引擎PerfXLLM

要的巨額開銷也引發(fā)了相關(guān)研究者的關(guān)注。如何高效地進(jìn)行推理，并盡可能地減少成本，從而促進(jìn)大模型應(yīng)用的落地成為了目前的關(guān)鍵問題。于是，澎峰科技研發(fā)了一款大模型推理引擎—PerfXLLM ，并且已經(jīng)在高通的驍龍8Gen2 平臺實現(xiàn)了應(yīng)用。接下來將分為四個部分進(jìn)行介紹，第一部分將介

2023-11-25 15:35:01

383