看全色黄大色黄大片毛片,一产区与二产区的产品区别,AV电影在线播放一区二区

隨著大語(yǔ)言模型（LLM）的功能日益強(qiáng)大，減少其計(jì)算需求的技術(shù)也日趨成熟，由此產(chǎn)生了兩個(gè)引人注目的問(wèn)題：能夠在邊緣運(yùn)行和部署的最先進(jìn)的 LLM 是什么？現(xiàn)實(shí)世界中的應(yīng)用如何才能充分利用這些成果？

即使采用較低的 FP16 精度，運(yùn)行像 Llama 270b 這樣最先進(jìn)的開源 LLM，也需要超過(guò) 140 GB 的 GPU 顯存（VRAM）（700 億參數(shù) x 2 字節(jié) = FP16 精度下的 140 GB，還要加上 KV 緩存所增加的顯存需求）。對(duì)于大多數(shù)開發(fā)者和較小的公司來(lái)說(shuō)，要獲得這么大的 VRAM 并不容易。此外，無(wú)論是由于成本、帶寬、延遲還是數(shù)據(jù)隱私問(wèn)題，應(yīng)用程序的特定要求可能會(huì)排除使用云計(jì)算資源托管 LLM 這一選項(xiàng)。

NVIDIA IGX Orin 開發(fā)者套件和 NVIDIA Holoscan SDK 可應(yīng)對(duì)這些挑戰(zhàn)，將 LLM 的強(qiáng)大功能帶到邊緣。NVIDIA IGX Orin 開發(fā)者套件可提供一個(gè)滿足工業(yè)和醫(yī)療環(huán)境需求的工業(yè)級(jí)邊緣 AI 平臺(tái)。內(nèi)置的 NVIDIA Holoscan 是一套能夠協(xié)調(diào)數(shù)據(jù)移動(dòng)、加速計(jì)算、實(shí)時(shí)可視化和 AI 推理的 SDK。

該平臺(tái)讓開發(fā)者能夠?qū)㈤_源 LLM 添加到邊緣 AI 流式傳輸工作流和產(chǎn)品中，為實(shí)時(shí) AI 傳感器處理帶來(lái)了新的可能性，同時(shí)確保敏感數(shù)據(jù)保持在 IGX 硬件的安全邊界內(nèi)。

適用于實(shí)時(shí)流式傳輸?shù)拈_源 LLM

近來(lái)開源 LLM 的快速發(fā)展已經(jīng)改變了人們對(duì)實(shí)時(shí)流式傳輸應(yīng)用可能性的看法。之前，人們普遍認(rèn)為，任何需要類似人類能力的應(yīng)用，都只能由數(shù)據(jù)中心規(guī)模的企業(yè)級(jí) GPU 驅(qū)動(dòng)的閉源 LLM 實(shí)現(xiàn)。但由于近期新型開源 LLM 的性能暴漲，F(xiàn)alcon、MPT、Llama 2 等模型現(xiàn)在已經(jīng)可以替代閉源黑盒 LLM。

有許多可能的應(yīng)用可以利用這些邊緣的開源模型，其中大多都涉及到將流式傳輸傳感器數(shù)據(jù)提煉為自然語(yǔ)言摘要?？赡艹霈F(xiàn)的應(yīng)用有：讓家屬隨時(shí)了解手術(shù)進(jìn)展的手術(shù)實(shí)時(shí)監(jiān)控視頻、為空中交通管制員匯總最近的雷達(dá)交流情況，以及將足球比賽的實(shí)況解說(shuō)轉(zhuǎn)換成另一種語(yǔ)言。

隨著強(qiáng)大開源 LLM 的出現(xiàn)，一個(gè)致力于提高這些模型準(zhǔn)確性，并減少運(yùn)行模型所需計(jì)算量的社群應(yīng)運(yùn)而生。這個(gè)充滿活力的社群活躍在“Hugging Face 開放式 LLM 排行榜”上，該排行榜經(jīng)常會(huì)更新最新的頂尖性能模型。

豐富的邊緣 AI 功能

NVIDIA IGX Orin 平臺(tái)在利用激增的可用開源 LLM 和支持軟件方面具有得天獨(dú)厚的優(yōu)勢(shì)。

強(qiáng)大的 Llama 2 模型有 NVIDIA IGX Orin 平臺(tái)安全措施的加持，并可以無(wú)縫集成到低延遲的 Holoscan SDK 管道中，因此能夠應(yīng)對(duì)各種問(wèn)題和用例。這一融合不僅標(biāo)志著邊緣 AI 能力的重大進(jìn)步，而且釋放了多個(gè)領(lǐng)域變革性解決方案的潛力。

其中一個(gè)值得關(guān)注的應(yīng)用能夠充分利用新發(fā)布的 Clinical Camel，這是一個(gè)經(jīng)過(guò)微調(diào)的 Llama 2 70B 模型變體，專門用于醫(yī)學(xué)知識(shí)研究?；谠撃Ｐ蛣?chuàng)建本地化的醫(yī)療聊天機(jī)器人，可確保敏感的患者數(shù)據(jù)始終處于 IGX 硬件的安全邊界內(nèi)。對(duì)隱私、帶寬或?qū)崟r(shí)反饋要求極高的應(yīng)用程序是 IGX 平臺(tái)真正的亮點(diǎn)所在。

想象一下，輸入患者的病歷，并向機(jī)器人查詢類似病例，獲得有關(guān)難以診斷的患者的新洞察，甚至為醫(yī)療專業(yè)人員篩選出不會(huì)與當(dāng)前處方產(chǎn)生相互作用的藥物——所有這些都可以通過(guò) Holoscan 應(yīng)用實(shí)現(xiàn)自動(dòng)化。該應(yīng)用可將醫(yī)患互動(dòng)的實(shí)時(shí)音頻轉(zhuǎn)換成文本，并將其無(wú)縫地輸入到 Clinical Camel 模型中。

圖 1. Clinical Camel 模型

根據(jù)示例對(duì)話生成的臨床筆記

NVIDIA IGX 平臺(tái)憑借對(duì)低延遲傳感器輸入數(shù)據(jù)的出色優(yōu)化，將 LLM 的功能擴(kuò)展到純文本應(yīng)用之外。醫(yī)療聊天機(jī)器人已經(jīng)足以展現(xiàn)出它的強(qiáng)大，而 IGX Orin 開發(fā)者套件更強(qiáng)大的地方在于，它能夠無(wú)縫集成來(lái)自各種傳感器的實(shí)時(shí)數(shù)據(jù)。

IGX Orin 專為邊緣環(huán)境打造，可以處理來(lái)自攝像頭、激光雷達(dá)傳感器、無(wú)線電天線、加速度計(jì)、超聲探頭等的流信息。這一通用性使各種先進(jìn)的應(yīng)用能夠無(wú)縫地將 LLM 的強(qiáng)大功能與實(shí)時(shí)數(shù)據(jù)流融合。

在集成到 Holoscan 操作系統(tǒng)后，這些 LLM 可顯著增強(qiáng) AI 傳感器處理管道的能力和功能。具體示例如下：

多模態(tài)醫(yī)療助手：增強(qiáng) LLM 的能力，使其不僅能夠解釋文本，還能解釋醫(yī)學(xué)影像，如 Med-Flamingo 等項(xiàng)目所驗(yàn)證的那樣，它能解釋核磁共振、X 射線和組織學(xué)影像。

圖 2. LLM 可解釋文本

并從醫(yī)學(xué)影像中獲得相關(guān)洞察

信號(hào)情報(bào)（SIGINT）：從通信系統(tǒng)和雷達(dá)捕獲的實(shí)時(shí)電子信號(hào)中獲得自然語(yǔ)言摘要，提供銜接技術(shù)數(shù)據(jù)與人類理解的深入洞察。

手術(shù)病例記錄生成：將內(nèi)窺鏡視頻、音頻、系統(tǒng)數(shù)據(jù)和患者記錄傳輸?shù)蕉嗄B(tài) LLM 中，生成綜合全面的手術(shù)病例，并自動(dòng)上傳到患者的電子病歷中。

智慧農(nóng)業(yè)：使用土壤傳感器監(jiān)測(cè) pH 值、濕度和營(yíng)養(yǎng)水平，使 LLM 能夠?yàn)閮?yōu)化種植、灌溉和病蟲害防治策略提供可操作的深入洞察。

用于教育、故障診斷或提高生產(chǎn)力的軟件開發(fā)助手是 LLM 的另一個(gè)新穎用例。這些模型可以幫助開發(fā)者開發(fā)更高效的代碼和詳盡的文檔。

Holoscan 團(tuán)隊(duì)最近發(fā)布了 HoloChat，這個(gè) AI 驅(qū)動(dòng)的聊天機(jī)器人在 Holoscan 的開發(fā)過(guò)程中充當(dāng)開發(fā)者的“助手”。它能對(duì)有關(guān) Holoscan 和編寫代碼的問(wèn)題做出類似人類的回答。詳情請(qǐng)?jiān)L問(wèn)GitHub上的nvidia-holoscan/holohub：https://github.com/nvidia-holoscan/holohub/tree/main/applications/holochat_local

HoloChat 的本地托管模式旨在為開發(fā)者提供與常見的閉源聊天機(jī)器人相同的優(yōu)勢(shì)，同時(shí)杜絕了將數(shù)據(jù)發(fā)送到第三方遠(yuǎn)程服務(wù)器處理所帶來(lái)的隱私和安全問(wèn)題。

通過(guò)模型量化

實(shí)現(xiàn)最佳精度與內(nèi)存使用

隨著大量開源模型通過(guò) Apache 2、MIT 和商業(yè)許可發(fā)布，任何人都可以下載并使用這些模型權(quán)重。但對(duì)絕大多數(shù)開發(fā)者來(lái)說(shuō)，“可以”并不意味著“可行”。

模型量化提供了一種解決方案。通過(guò)用低精度數(shù)據(jù)類型（int8 和 int4）來(lái)表示權(quán)重和激活值，而不是高精度數(shù)據(jù)類型（FP16 和 FP32），模型量化減少了運(yùn)行推理的計(jì)算和內(nèi)存成本。

然而，從模型中移除這一精度確實(shí)會(huì)導(dǎo)致模型的準(zhǔn)確性下降。但研究表明，在內(nèi)存預(yù)算既定的情況下，當(dāng)參數(shù)以 4 位精度存儲(chǔ)時(shí)，使用盡可能大且與內(nèi)存匹配的模型才能實(shí)現(xiàn)最佳的 LLM 性能。更多詳情，參見 4 位精度案例：k 位推理縮放法則：https://arxiv.org/abs/2212.09720

因此，Llama 2 70B 模型在以 4 位量化實(shí)施時(shí)，達(dá)到了精度和內(nèi)存使用之間的最佳平衡，將所需的 RAM 降低至 35 GB 左右。對(duì)于規(guī)模較小的開發(fā)團(tuán)隊(duì)甚至個(gè)人來(lái)說(shuō)，這一內(nèi)存需求是可以達(dá)到的。

開源 LLM 打開新的開發(fā)機(jī)遇

由于能夠在商用硬件上運(yùn)行最先進(jìn)的 LLM，開源社區(qū)中出現(xiàn)了大量支持本地運(yùn)行的新程序庫(kù)，并提供能夠擴(kuò)展這些模型功能的工具，而不僅僅是預(yù)測(cè)句子的下一個(gè)單詞。

您可以通過(guò) Llama.cpp、ExLlama 和 AutoGPTQ 等程序庫(kù)量化自己的模型，并在本地 GPU 上快速運(yùn)行推理。不過(guò)，是否量化模型完全取決于您自己的選擇，因?yàn)?HuggingFace.co/models 中有大量量化模型可供使用。這在很大程度上要?dú)w功于像 /TheBloke 這樣的超級(jí)用戶，他們每天都會(huì)上傳新的量化模型。

這些模型本身就帶來(lái)了令人興奮的開發(fā)機(jī)會(huì)，更不用說(shuō)還能使用大量新建程序庫(kù)中的附加工具來(lái)對(duì)其進(jìn)行擴(kuò)展，使它們更加強(qiáng)大。例如：

LangChain：一個(gè)在 GitHub 上獲得 58,000 顆星評(píng)分的程序庫(kù)，提供從實(shí)現(xiàn)文檔問(wèn)答功能的矢量數(shù)據(jù)庫(kù)集成，到使 LLM 能夠?yàn)g覽網(wǎng)頁(yè)的多步驟代理框架等所有功能。
Haystack：支持可擴(kuò)展的語(yǔ)義搜索。
Magentic：可將 LLM 輕松集成到您的 Python 代碼中。
Oobabooga：一個(gè)用于在本地運(yùn)行量化 LLM 的網(wǎng)絡(luò)用戶界面。

只要您有 LLM 用例，就可以使用一個(gè)開源庫(kù)來(lái)提供您所需的大部分功能。

開始在邊緣部署 LLM

使用 NVIDIA IGX Orin 開發(fā)者套件在邊緣部署最先進(jìn)的 LLM，可以解鎖尚未被挖掘的開發(fā)機(jī)會(huì)。如要開始部署，請(qǐng)先查看"使用 IGX Orin 在邊緣部署 Llama 2 70B 模型"綜合教程，其詳細(xì)介紹了在 IGX Orin 上創(chuàng)建簡(jiǎn)單聊天機(jī)器人應(yīng)用：https://github.com/nvidia-holoscan/holohub/tree/main/tutorials/local-llama

該教程演示了如何在 IGX Orin 上無(wú)縫集成 Llama 2，并指導(dǎo)您使用 Gradio 開發(fā) Python 應(yīng)用。這是使用本文中提到的任何優(yōu)質(zhì) LLM 庫(kù)的第一步。IGX Orin 提供的彈性、非凡性能和端到端的安全性，使開發(fā)者能夠圍繞在邊緣運(yùn)行的先進(jìn) LLM，構(gòu)建創(chuàng)新的 Holoscan 優(yōu)化應(yīng)用。

GTC 2024 將于 2024 年 3 月 18 至 21 日在美國(guó)加州圣何塞會(huì)議中心舉行，線上大會(huì)也將同期開放。點(diǎn)擊“閱讀原文”或掃描下方海報(bào)二維碼，立即注冊(cè) GTC 大會(huì)。

原文標(biāo)題：使用 NVIDIA IGX Orin 開發(fā)者套件在邊緣部署大語(yǔ)言模型

文章出處：【微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3684

瀏覽量
90495

原文標(biāo)題：使用 NVIDIA IGX Orin 開發(fā)者套件在邊緣部署大語(yǔ)言模型

文章出處：【微信號(hào)：NVIDIA_China，微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

NVIDIA RTX AI套件簡(jiǎn)化AI驅(qū)動(dòng)的應(yīng)用開發(fā)

NVIDIA 于近日發(fā)布 NVIDIA RTX AI套件，這一工具和 SDK 集合能夠幫助 Windows 應(yīng)用開發(fā)者定制、優(yōu)化和部署適用于

發(fā)表于 09-06 14:45 ?322次閱讀

Mistral AI與NVIDIA推出全新語(yǔ)言模型Mistral NeMo 12B

Mistral AI 和 NVIDIA 于近日共同發(fā)布了一款全新的領(lǐng)先語(yǔ)言模型Mistral NeMo 12B。開發(fā)者可以輕松定制和部署該

發(fā)表于 07-27 11:04 ?587次閱讀

基于AX650N/AX630C部署端側(cè)大語(yǔ)言模型Qwen2

本文將分享如何將最新的端側(cè)大語(yǔ)言模型部署到超高性價(jià)比SoC上，向業(yè)界對(duì)端側(cè)大模型部署的開發(fā)者提供

發(fā)表于 07-06 17:43 ?2990次閱讀

基于AX650N/AX630C<b class='flag-5'>部署</b>端側(cè)大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>Qwen2

NVIDIA 通過(guò) Holoscan 為 NVIDIA IGX 提供企業(yè)軟件支持

美敦力、SETI 協(xié)會(huì)以及領(lǐng)先制造商正在構(gòu)建 NVIDIA IGX 系統(tǒng)，為 AI 在工業(yè)邊緣賦能。 ? NVIDIA 于6月2日宣布，集成

發(fā)表于 06-04 10:21 ?427次閱讀

NVIDIA將全球數(shù)百萬(wàn)開發(fā)者轉(zhuǎn)變?yōu)樯墒?AI 開發(fā)者

和測(cè)試 ? NVIDIA 于今日宣布，全球 2,800 萬(wàn)開發(fā)者現(xiàn)可下載NVIDIA NIM——一種推理微服務(wù)，通過(guò)經(jīng)優(yōu)化的容器的形式提供模型——以

發(fā)表于 06-03 18:21 ?947次閱讀

NVIDIA 通過(guò) Holoscan 為 NVIDIA IGX 提供企業(yè)軟件支持，實(shí)現(xiàn)邊緣實(shí)時(shí)醫(yī)療、工業(yè)和科學(xué) AI 應(yīng)用

醫(yī)療、工業(yè)和科學(xué)計(jì)算領(lǐng)域的解決方案提供商利用企業(yè)級(jí)軟件和支持來(lái)加快開發(fā)和部署邊緣 AI 解決方案。 ? NVIDIA AI Enterprise-I

發(fā)表于 06-03 09:48 ?259次閱讀

NVIDIA NIM 革命性地改變模型部署，將全球數(shù)百萬(wàn)開發(fā)者轉(zhuǎn)變?yōu)樯墒?AI 開發(fā)者

部署在云、數(shù)據(jù)中心或工作站上。借助 NVIDIA NIM，開發(fā)者能夠輕松地為 copilots、聊天機(jī)器人等構(gòu)建生成式 AI 應(yīng)用，所需時(shí)間從

發(fā)表于 06-03 09:12 ?198次閱讀

NVIDIA與微軟擴(kuò)展合作，幫助開發(fā)者更快構(gòu)建和部署AI應(yīng)用

NVIDIA 在 Microsoft Build 開發(fā)者大會(huì)上展示了與 Microsoft Azure 和 Windows PC 的集成解決方案，簡(jiǎn)化了 AI 模型

發(fā)表于 05-23 10:14 ?338次閱讀

英特爾開發(fā)套件『哪吒』在Java環(huán)境實(shí)現(xiàn)ADAS道路識(shí)別演示 | 開發(fā)者實(shí)戰(zhàn)

本文使用來(lái)自O(shè)penModelZoo的預(yù)訓(xùn)練的road-segmentation-adas-0001模型。ADAS代表高級(jí)駕駛輔助服務(wù)。該模型識(shí)別四個(gè)類別：背景、道路、路緣和標(biāo)記。硬件環(huán)境此文使用了英特爾開發(fā)套件家族里的『哪吒』

發(fā)表于 04-29 08:07 ?424次閱讀

【轉(zhuǎn)載】英特爾開發(fā)套件“哪吒”快速部署YoloV8 on Java | 開發(fā)者實(shí)戰(zhàn)

部署到生產(chǎn)系統(tǒng)中。通過(guò)簡(jiǎn)化的開發(fā)工作流程，OpenVINO可賦能開發(fā)者在現(xiàn)實(shí)世界中部署高性能應(yīng)用程序和算法。今天我們將基于哪吒

發(fā)表于 03-23 08:05 ?391次閱讀

15-PyTorch-Edge-在邊緣設(shè)備上部署AI模型的開發(fā)者之旅

對(duì)于開發(fā)者而言，我們將整個(gè)ExecuTorch技術(shù)棧分為兩個(gè)階段。首先，我們從一個(gè)PyTorch模型開始，這在大多數(shù)情況下是一個(gè)torch.in.module。然后我們從中捕獲圖形，并將其lowering并序列化為額外的torch二進(jìn)制文件。

發(fā)表于 01-12 10:29 ?642次閱讀

有獎(jiǎng)?wù)魑?| NVIDIA 攜手中國(guó)百萬(wàn)開發(fā)者共創(chuàng) AI 美好未來(lái)

同那些最活躍的“細(xì)胞”，是激活和繁榮生態(tài)的關(guān)鍵因子。今天，中國(guó)已有超過(guò) 100 萬(wàn)開發(fā)者注冊(cè)并使用 NVIDIA 產(chǎn)品及解決方案，這距離 2016 年 NVIDIA 開發(fā)者社區(qū)官方

發(fā)表于 12-14 16:35 ?304次閱讀

如何解決模型部署時(shí)出現(xiàn)算子不匹配問(wèn)題

結(jié)果部署到生產(chǎn)系統(tǒng)中。通過(guò)簡(jiǎn)化的開發(fā)工作流程，OpenVINO 可賦能開發(fā)者在現(xiàn)實(shí)世界中部署高性能應(yīng)用程序和算法。

發(fā)表于 12-08 15:30 ?927次閱讀

利用 NVIDIA Jetson 實(shí)現(xiàn)生成式 AI

近日，NVIDIA 發(fā)布了 Jetson 生成式 AI 實(shí)驗(yàn)室（Jetson Generative AI Lab），使開發(fā)者能夠通過(guò) NVIDIA Jetson 邊緣設(shè)備

發(fā)表于 11-07 21:25 ?851次閱讀

現(xiàn)已公開發(fā)布！歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語(yǔ)言模型推理

的全新方式。但是，隨著世界各地的企業(yè)和應(yīng)用開發(fā)者想要在自己的工作中采用大語(yǔ)言模型，運(yùn)行這些模型的相關(guān)問(wèn)題開始凸顯。簡(jiǎn)而言之，大語(yǔ)言

發(fā)表于 10-27 20:05 ?893次閱讀