0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

點(diǎn)亮未來:TensorRT-LLM 更新加速 AI 推理性能,支持在 RTX 驅(qū)動的 Windows PC 上運(yùn)行新模型

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:未知 ? 2023-11-16 21:15 ? 次閱讀

微軟 Ignite 2023 技術(shù)大會發(fā)布的新工具和資源包括 OpenAIChatAPI 的 TensorRT-LLM 封裝接口、RTX 驅(qū)動的性能改進(jìn) DirectMLforLlama2、其他熱門 LLM

Windows PC 上的 AI 標(biāo)志著科技史上的關(guān)鍵時(shí)刻,它將徹底改變玩家、創(chuàng)作者、主播、上班族、學(xué)生乃至普通 PC 用戶的體驗(yàn)。

AI 為 1 億多臺采用 RTX GPU 的 Windows PC 和工作站提高生產(chǎn)力帶來前所未有的機(jī)會。NVIDIA RTX 技術(shù)使開發(fā)者更輕松地創(chuàng)建 AI 應(yīng)用,從而改變?nèi)藗兪褂糜?jì)算機(jī)的方式。

在微軟 Ignite 2023 技術(shù)大會上發(fā)布的全新優(yōu)化、模型和資源將更快地幫助開發(fā)者提供新的終端用戶體驗(yàn)。

TensorRT-LLM 是一款提升 AI 推理性能的開源軟件,它即將發(fā)布的更新將支持更多大語言模型,在 RTX GPU 8GB 及以上顯存的 PC 和筆記本電腦上使要求嚴(yán)苛的 AI 工作負(fù)載更容易完成。

Tensor RT-LLM for Windows 即將通過全新封裝接口與 OpenAI 廣受歡迎的聊天 API 兼容。這將使數(shù)以百計(jì)的開發(fā)者項(xiàng)目和應(yīng)用能在 RTX PC 的本地運(yùn)行,而非云端運(yùn)行,因此用戶可以在 PC 上保留私人和專有數(shù)據(jù)。

定制的生成式 AI 需要時(shí)間和精力來維護(hù)項(xiàng)目。特別是跨多個(gè)環(huán)境和平臺進(jìn)行協(xié)作和部署時(shí),該過程可能會異常復(fù)雜和耗時(shí)。

AI Workbench 是一個(gè)統(tǒng)一、易用的工具包,允許開發(fā)者在 PC 或工作站上快速創(chuàng)建、測試和定制預(yù)訓(xùn)練生成式 AI 模型和 LLM。它為開發(fā)者提供一個(gè)單一平臺,用于組織他們的 AI 項(xiàng)目,并根據(jù)特定用戶需求來調(diào)整模型。

這使開發(fā)者能夠進(jìn)行無縫協(xié)作和部署,快速創(chuàng)建具有成本效益、可擴(kuò)展的生成式 AI 模型。加入搶先體驗(yàn)名單,成為首批用戶以率先了解不斷更新的功能,并接收更新信息。

為支持 AI 開發(fā)者,NVIDIA 與微軟發(fā)布 DirectML 增強(qiáng)功能以加速最熱門的基礎(chǔ) AI 模型之一的 Llama 2。除了全新性能標(biāo)準(zhǔn),開發(fā)者現(xiàn)在有更多跨供應(yīng)商部署可選。

便攜式 AI

2023 年 10 月,NVIDIA 發(fā)布 TensorRT-LLM for Windows —— 一個(gè)用于加速大語言模型(LLM)推理的庫。

本月底發(fā)布的 TensorRT-LLM v0.6.0 更新將帶來至高達(dá) 5 倍的推理性能提升,并支持更多熱門的 LLM,包括全新 Mistral 7B 和 Nemotron-3 8B。這些 LLM 版本將可在所有采用 8GB 及以上顯存的 GeForce RTX 30系列和 40系列 GPU 上運(yùn)行,從而使最便攜的 Windows PC 設(shè)備也能獲得快速、準(zhǔn)確的本地運(yùn)行 LLM 功能。

wKgaomVWFwiAI5yYAAD9zpwM1bA457.jpg

TensorRT-LLM v0.6.0

帶來至高達(dá) 5 倍推理性能提升

新發(fā)布的 TensorRT-LLM 可在/NVIDIA/TensorRT-LLMGitHub 代碼庫中下載安裝,新調(diào)優(yōu)的模型將在ngc.nvidia.com提供。

從容對話

世界各地的開發(fā)者和愛好者將 OpenAI 的聊天 API 廣泛用于各種應(yīng)用——從總結(jié)網(wǎng)頁內(nèi)容、起草文件和電子郵件,到分析和可視化數(shù)據(jù)以及創(chuàng)建演示文稿。

這類基于云的 AI 面臨的一大挑戰(zhàn)是它們需要用戶上傳輸入數(shù)據(jù),因此對于私人或?qū)S袛?shù)據(jù)以及處理大型數(shù)據(jù)集來說并不實(shí)用。

為應(yīng)對這一挑戰(zhàn),NVIDIA 即將啟用 TensorRT-LLM for Windows,通過全新封裝接口提供與 OpenAI 廣受歡迎的 ChatAPI 類似的 API 接口,為開發(fā)者帶來類似的工作流,無論他們設(shè)計(jì)的模型和應(yīng)用要在 RTX PC 的本地運(yùn)行,還是在云端運(yùn)行。只需修改一兩行代碼,數(shù)百個(gè) AI 驅(qū)動的開發(fā)者項(xiàng)目和應(yīng)用現(xiàn)在就能從快速的本地 AI 中受益。用戶可將數(shù)據(jù)保存在 PC 上,不必?fù)?dān)心將數(shù)據(jù)上傳到云端。

使用由 TensorRT-LLM 驅(qū)動的

Microsoft VS Code 插件 Continue.dev 編碼助手

此外,最重要的一點(diǎn)是這些項(xiàng)目和應(yīng)用中有很多都是開源的,開發(fā)者可以輕松利用和擴(kuò)展它們的功能,從而加速生成式 AI 在 RTX 驅(qū)動的 Windows PC 上的應(yīng)用。

該封裝接口可與所有對 TensorRT-LLM 進(jìn)行優(yōu)化的 LLM (如,Llama 2、Mistral 和 NV LLM)配合使用,并作為參考項(xiàng)目在 GitHub 上發(fā)布,同時(shí)發(fā)布的還有用于在 RTX 上使用 LLM 的其他開發(fā)者資源。

模型加速

開發(fā)者現(xiàn)可利用尖端的 AI 模型,并通過跨供應(yīng)商 API 進(jìn)行部署。NVIDIA 和微軟一直致力于增強(qiáng)開發(fā)者能力,通過 DirectML API 在 RTX 上加速 Llama。

在 10 月宣布的為這些模型提供最快推理性能的基礎(chǔ)上,這一跨供應(yīng)商部署的全新選項(xiàng)使將 AI 引入 PC 變得前所未有的簡單。

開發(fā)者和愛好者可下載最新的 ONNX 運(yùn)行時(shí)并按微軟的安裝說明進(jìn)行操作,同時(shí)安裝最新 NVIDIA 驅(qū)動(將于 11 月 21 日發(fā)布)以獲得最新優(yōu)化體驗(yàn)。

這些新優(yōu)化、模型和資源將加速 AI 功能和應(yīng)用在全球 1 億臺 RTX PC 上的開發(fā)和部署,一并加入 400 多個(gè)合作伙伴的行列,他們已經(jīng)發(fā)布了由 RTX GPU 加速的 AI 驅(qū)動的應(yīng)用和游戲。

隨著模型易用性的提高,以及開發(fā)者將更多生成式 AI 功能帶到 RTX 驅(qū)動的 Windows PC 上,RTX GPU 將成為用戶利用這一強(qiáng)大技術(shù)的關(guān)鍵。

GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。點(diǎn)擊“閱讀原文”掃描下方海報(bào)二維碼,立即注冊 GTC 大會。


原文標(biāo)題:點(diǎn)亮未來:TensorRT-LLM 更新加速 AI 推理性能,支持在 RTX 驅(qū)動的 Windows PC 上運(yùn)行新模型

文章出處:【微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3680

    瀏覽量

    90481

原文標(biāo)題:點(diǎn)亮未來:TensorRT-LLM 更新加速 AI 推理性能,支持在 RTX 驅(qū)動的 Windows PC 上運(yùn)行新模型

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    開箱即用,AISBench測試展示英特爾至強(qiáng)處理器的卓越推理性能

    。 中國電子技術(shù)標(biāo)準(zhǔn)化研究院賽西實(shí)驗(yàn)室依據(jù)國家標(biāo)準(zhǔn)《人工智能服務(wù)器系統(tǒng)性能測試規(guī)范》(征求意見稿)相關(guān)要求,使用AISBench?2.0測試工具,完成了第五代英特爾至強(qiáng)可擴(kuò)展處理器的AI模型
    的頭像 發(fā)表于 09-06 15:33 ?216次閱讀
    開箱即用,AISBench測試展示英特爾至強(qiáng)處理器的卓越<b class='flag-5'>推理性能</b>

    RTX AI PC和工作站提供強(qiáng)大AI性能

    由 NVIDIA RTX 和 GeForce RTX 技術(shù)驅(qū)動AI PC 時(shí)代已經(jīng)到來。在這一背景下,一種評估
    的頭像 發(fā)表于 08-23 16:57 ?555次閱讀

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型
    的頭像 發(fā)表于 08-23 15:48 ?299次閱讀

    LLM模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型
    的頭像 發(fā)表于 07-24 11:38 ?645次閱讀

    NVIDIA推出用于支持全新GeForce RTX AI筆記本電腦運(yùn)行AI助手及數(shù)字人

    NVIDIA 宣布推出全新 NVIDIA RTX?技術(shù),用于支持全新 GeForce RTX AI 筆記本電腦
    的頭像 發(fā)表于 06-04 10:19 ?623次閱讀

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型TensorRT-LLM 是一個(gè)開源庫,用于優(yōu)化從
    的頭像 發(fā)表于 04-28 10:36 ?437次閱讀

    自然語言處理應(yīng)用LLM推理優(yōu)化綜述

    當(dāng)前,業(yè)界將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時(shí),同時(shí)也探索從大模型自回歸解碼特點(diǎn)出發(fā),通過調(diào)整推理
    發(fā)表于 04-10 11:48 ?506次閱讀
    自然語言處理應(yīng)用<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>優(yōu)化綜述

    Torch TensorRT是一個(gè)優(yōu)化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我們大家聚在一起的原因,它是一個(gè)端到端的機(jī)器學(xué)習(xí)框架。而TensorRT則是NVIDIA的高性能深度學(xué)習(xí)推理軟件工具包。Torc
    的頭像 發(fā)表于 01-09 16:41 ?1273次閱讀
    Torch <b class='flag-5'>TensorRT</b>是一個(gè)優(yōu)化PyTorch<b class='flag-5'>模型</b><b class='flag-5'>推理性能</b>的工具

    如何在 NVIDIA TensorRT-LLM支持 Qwen 模型

    背景介紹 大語言模型正以其驚人的新能力推動人工智能的發(fā)展,擴(kuò)大其應(yīng)用范圍。然而,由于這類模型具有龐大的參數(shù)規(guī)模,部署和推理的難度和成本極高,這一挑戰(zhàn)一直困擾著 AI 領(lǐng)域。此外,當(dāng)前存
    的頭像 發(fā)表于 12-04 20:25 ?843次閱讀
    如何在 NVIDIA <b class='flag-5'>TensorRT-LLM</b> 中<b class='flag-5'>支持</b> Qwen <b class='flag-5'>模型</b>

    用上這個(gè)工具包,大模型推理性能加速達(dá)40倍

    作者: 英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊 編者按: 只需不到9行代碼, 就能在CPU實(shí)現(xiàn)出色的LLM推理性能。 英特爾 ?Extension for Transformer 創(chuàng)新
    的頭像 發(fā)表于 12-01 20:40 ?1043次閱讀
    用上這個(gè)工具包,大<b class='flag-5'>模型</b><b class='flag-5'>推理性能</b><b class='flag-5'>加速</b>達(dá)40倍

    TensorRT-LLM初探(一)運(yùn)行llama

    TensorRT-LLM正式出來有半個(gè)月了,一直沒有時(shí)間玩,周末趁著有時(shí)間跑一下。
    的頭像 發(fā)表于 11-16 17:39 ?1120次閱讀
    <b class='flag-5'>TensorRT-LLM</b>初探(一)<b class='flag-5'>運(yùn)行</b>llama

    淺析tensorrt-llm搭建運(yùn)行環(huán)境以及庫

    之前玩內(nèi)測版的時(shí)候就需要cuda-12.x,正式出來仍是需要cuda-12.x,主要是因?yàn)閠ensorr-llm中依賴的CUBIN(二進(jìn)制代碼)是基于cuda12.x編譯生成的,想要跑只能更新驅(qū)動。
    的頭像 發(fā)表于 11-13 14:42 ?2265次閱讀
    淺析<b class='flag-5'>tensorrt-llm</b>搭建<b class='flag-5'>運(yùn)行</b>環(huán)境以及庫

    利用 NVIDIA Jetson 實(shí)現(xiàn)生成式 AI

    交互速率運(yùn)行的 Llama-2-70B 模型。 圖 1. 領(lǐng)先的生成式 AI 模型? Jetson AGX Orin
    的頭像 發(fā)表于 11-07 21:25 ?838次閱讀
    利用 NVIDIA Jetson 實(shí)現(xiàn)生成式 <b class='flag-5'>AI</b>

    現(xiàn)已公開發(fā)布!歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

    NVIDIA 于 2023 年 10 月 19 日公開發(fā)布 TensorRT-LLM ,可在 NVIDIA GPU 加速和優(yōu)化最新的大語言模型(Large Language Mode
    的頭像 發(fā)表于 10-27 20:05 ?885次閱讀
    現(xiàn)已公開發(fā)布!歡迎使用 NVIDIA <b class='flag-5'>TensorRT-LLM</b> 優(yōu)化大語言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    周四研討會預(yù)告 | 注冊報(bào)名 NVIDIA AI Inference Day - 大模型推理線上研討會

    由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會,將幫助您了解 NVIDIA 開源大型語言模型LLM
    的頭像 發(fā)表于 10-26 09:05 ?307次閱讀