精品国产1区,国产1024精品免费视频,欧美精品黄页在线视频免费

一句話總結(jié)

通過應(yīng)用視覺專家進(jìn)行工業(yè)異常檢測，以實現(xiàn)明確的異常檢測和高質(zhì)量的異常描述，還可進(jìn)行多輪對話，性能表現(xiàn)出色！優(yōu)于AnomalyGPT等網(wǎng)絡(luò)，代碼即將開源！

Myriad

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

單位：哈工大(左旺孟團(tuán)隊), 琶洲實驗室

論文：https://arxiv.org/abs/2310.19070

代碼：https://github.com/tzjtatata/Myriad

現(xiàn)有的工業(yè)異常檢測（IAD）方法可以預(yù)測異常檢測和定位的異常分?jǐn)?shù)。然而，它們很難對異常區(qū)域進(jìn)行多輪對話和詳細(xì)描述，例如工業(yè)異常的顏色、形狀和類別。

最近，大型多模態(tài)（即視覺和語言）模型（LMM）在圖像描述、視覺理解、視覺推理等多種視覺任務(wù)上表現(xiàn)出了卓越的感知能力，使其成為更易于理解的異常檢測的有競爭力的潛在選擇。然而，現(xiàn)有的通用 LMM 中缺乏有關(guān)異常檢測的知識，而訓(xùn)練特定的 LMM 進(jìn)行異常檢測需要大量的注釋數(shù)據(jù)和大量的計算資源。

本文提出了一種新穎的大型多模態(tài)模型，通過應(yīng)用視覺專家進(jìn)行工業(yè)異常檢測（稱為Myriad），從而實現(xiàn)明確的異常檢測和高質(zhì)量的異常描述。

具體來說，采用 MiniGPT-4 作為基礎(chǔ) LMM，并設(shè)計一個專家感知模塊，將視覺專家的先驗知識嵌入到大型語言模型（LLM）可以理解的標(biāo)記中。

為了彌補(bǔ)視覺專家的錯誤和困惑，引入了域適配器來彌合通用圖像和工業(yè)圖像之間的視覺表示差距。此外，提出了一個視覺專家講師，它使 Q-Former 能夠根據(jù)視覺專家先驗生成 IAD 領(lǐng)域視覺語言標(biāo)記。

實驗結(jié)果

在MVTec-AD 和 VisA 基準(zhǔn)上的大量實驗表明，本文提出的方法不僅在 1-class 和少樣本設(shè)置下比最先進(jìn)的方法表現(xiàn)更好，而且還提供了明確的異常預(yù)測以及 IAD 中的詳細(xì)描述領(lǐng)域。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3058

瀏覽量
48570
視覺

視覺

+關(guān)注

關(guān)注
1

文章
145

瀏覽量
23830
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2206

瀏覽量
2227

原文標(biāo)題：工業(yè)異常檢測大模型來了！哈工大提出Myriad：利用視覺專家進(jìn)行工業(yè)異常檢測的大型多模態(tài)模型

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實現(xiàn)更加智能化的信息處理。簡單來說

發(fā)表于 10-18 09:39 ?134次閱讀

華工科技聯(lián)合哈工大實現(xiàn)國內(nèi)首臺激光智能除草機(jī)器人落地

華工科技黨委書記、董事長、總裁馬新強(qiáng)一行赴哈爾濱對哈爾濱工業(yè)大學(xué)機(jī)器人技術(shù)與系統(tǒng)全國重點實驗室（后簡稱哈工大機(jī)器人實驗室）、愛輝區(qū)智能激光除草機(jī)器人試點基地進(jìn)行實地調(diào)研，代表華工科技中央研究院同

發(fā)表于 09-06 10:45 ?578次閱讀

聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集（硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集）

豐富外設(shè)配件配套多模態(tài)應(yīng)用示例，支持快速上手體驗大模型語音交互、智能視覺等 AI 應(yīng)用板載 DAPLINK 調(diào)試器，外接一條USB 線即可實現(xiàn)燒錄、調(diào)試、串口日志查看板載網(wǎng)絡(luò)模組

發(fā)表于 06-18 17:33

智譜AI發(fā)布全新多模態(tài)開源模型GLM-4-9B

近日，智譜AI在人工智能領(lǐng)域取得重大突破，成功推出全新開源模型GLM-4-9B。這款模型以其卓越的多模態(tài)能力，再次刷新了業(yè)界對于大型語言

發(fā)表于 06-07 09:17 ?597次閱讀

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

文本生成、語言理解、圖像識別及視頻生成等多模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互，同時多

發(fā)表于 04-18 17:01 ?534次閱讀

蘋果發(fā)布300億參數(shù)MM1多模態(tài)大模型

近日，科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中，正式公布了其最新的多模態(tài)大模型研究成果——MM1。這款具有高達(dá)300億參數(shù)的多

發(fā)表于 03-19 11:19 ?783次閱讀

螞蟻推出20億參數(shù)多模態(tài)遙感模型SkySense

據(jù)了解，負(fù)責(zé)開發(fā)的百靈團(tuán)隊利用自身擁有的19億遙感影像數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練，從而生成了具有20.6億參數(shù)的SkySense大模型。官方稱其為全球范圍內(nèi)參數(shù)規(guī)模最大、任務(wù)覆蓋最全且識別精度最高的多

發(fā)表于 02-28 15:53 ?561次閱讀

韓國Kakao宣布開發(fā)多模態(tài)大語言模型“蜜蜂”

韓國互聯(lián)網(wǎng)巨頭Kakao最近宣布開發(fā)了一種名為“蜜蜂”(Honeybee)的多模態(tài)大型語言模型。這種創(chuàng)新模型能夠同時理解和處理圖像和文本數(shù)據(jù)

發(fā)表于 01-19 16:11 ?588次閱讀

機(jī)器人基于開源的多模態(tài)語言視覺大模型

ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作

發(fā)表于 01-19 11:43 ?323次閱讀

基于DiAD擴(kuò)散模型的多類異常檢測工作

現(xiàn)有的基于計算機(jī)視覺的工業(yè)異常檢測技術(shù)包括基于特征的、基于重構(gòu)的和基于合成的技術(shù)。最近，擴(kuò)散模型因其強(qiáng)大的生成能力而聞名，因此本文作者希望通

發(fā)表于 01-08 14:55 ?1078次閱讀

自動駕駛和多模態(tài)大語言模型的發(fā)展歷程

多模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注，其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合，通過多模態(tài)對齊使它們能夠更高效地執(zhí)行各種任務(wù)，包括圖像分類、將文本與相應(yīng)的視頻

發(fā)表于 12-28 11:45 ?458次閱讀

大模型+多模態(tài)的3種實現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態(tài)（包括圖像、語音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)大、更通用呢？本節(jié)將介紹“大

發(fā)表于 12-13 13:55 ?1528次閱讀

探究編輯多模態(tài)大語言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單

發(fā)表于 11-09 14:53 ?443次閱讀

北大&華為提出：多模態(tài)基礎(chǔ)大模型的高效微調(diào)

深度學(xué)習(xí)的大模型時代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大

發(fā)表于 11-08 16:20 ?684次閱讀

數(shù)智共創(chuàng)，華為WeLink 賦能哈工大卓越發(fā)展

數(shù)智共創(chuàng)，WeLink 賦能哈工大卓越發(fā)展哈爾濱工業(yè)大學(xué)經(jīng)過百余年的發(fā)展，形成了“一校三區(qū)”的辦學(xué)格局，在全國高校中最具特色，也增加了校務(wù)活動的復(fù)雜性。信息化服務(wù)模式也面臨著跨地域空間，信息規(guī)劃

發(fā)表于 11-05 14:49 ?530次閱讀