0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

美團(tuán)落實(shí) AI 框架在 GPU 上性能推理的優(yōu)化實(shí)踐

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2021-12-28 09:11 ? 次閱讀

美團(tuán)是一家集生活服務(wù)及商品零售的電商平臺(tái),公司聚焦“零售+科技”戰(zhàn)略,以“吃”為核心,通過(guò)科技創(chuàng)新,服務(wù)于生活服務(wù)業(yè)需求側(cè)和供給側(cè)數(shù)字化升級(jí)。美團(tuán)在中國(guó)業(yè)務(wù)涵蓋餐飲、配送、網(wǎng)約車、共享單車、酒店及旅游預(yù)訂、電影票務(wù)等 200 多個(gè)服務(wù)品類,覆蓋全國(guó) 2800 個(gè)市區(qū)縣,服務(wù) 6.7 億活躍用戶和 830萬(wàn)活躍商家。

伴隨著用戶規(guī)模的提升和業(yè)務(wù)的精細(xì)化運(yùn)營(yíng),業(yè)務(wù)側(cè)對(duì)推薦系統(tǒng)的準(zhǔn)確度、吞吐能力和時(shí)延都提出了新的挑戰(zhàn),而 CTR 模型作為推薦系統(tǒng)的核心模型,其效果直接影響業(yè)務(wù)的收入。

美團(tuán)的 CTR 模型過(guò)去一直在使用 CPU 推理的方式,但隨著用戶訪問(wèn)量的提升和深度神經(jīng)網(wǎng)絡(luò)的引入,CTR 模型結(jié)構(gòu)趨于復(fù)雜,吞吐和計(jì)算量也越來(lái)越大,CPU 開(kāi)始不能滿足模型對(duì)于算力的需求,而僅僅通過(guò) CPU 服務(wù)器的堆疊帶來(lái)的性能提升性價(jià)比相較偏低。

GPU 擁有數(shù)以千計(jì)的計(jì)算核心,可以在單機(jī)內(nèi)提供密集的并行計(jì)算能力,特別適合深度學(xué)習(xí)場(chǎng)景,在行業(yè)內(nèi)已經(jīng)在 CV 、NLP 等領(lǐng)域展示了強(qiáng)大的能力。通過(guò) CUDA 及相關(guān) API ,NVIDIA 建立了完整的 GPU 生態(tài)系統(tǒng)。基于此,美團(tuán)基礎(chǔ)研發(fā)平臺(tái)將 CTR 模型部署到 GPU 上,并通過(guò)一系列針對(duì) CPU 與 GPU 的異構(gòu)系統(tǒng)并行計(jì)算設(shè)計(jì)、數(shù)據(jù)存儲(chǔ)方式和傳輸方式上的特定優(yōu)化,希望能通過(guò) GPU 強(qiáng)大的計(jì)算力,協(xié)助美團(tuán)在 CTR 預(yù)測(cè)的各業(yè)務(wù)場(chǎng)景中發(fā)揮出最大優(yōu)勢(shì)。

為了解決算力瓶頸及上述各種挑戰(zhàn),美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)采用 NVIDIA AI 計(jì)算平臺(tái),在繼 CV 、NLP 及 CTR 訓(xùn)練后,也使用了 NVIDIA T4 來(lái)提供 CTR 預(yù)測(cè)支持,大幅提升用戶體驗(yàn)與服務(wù)穩(wěn)定性。除此之外,時(shí)延也是業(yè)務(wù)側(cè)非常重視的性能指標(biāo),許多復(fù)雜模型縱有更好的準(zhǔn)確度,但卻因響應(yīng)時(shí)間不達(dá)標(biāo)而無(wú)法落地應(yīng)用,例如,在某搜索框自動(dòng)補(bǔ)全的場(chǎng)景,由于天然的交互屬性,時(shí)延要求非??量?,一般來(lái)說(shuō)無(wú)法使用復(fù)雜的模型。而在 GPU 能力的加持下,其復(fù)雜模型的平均響應(yīng)時(shí)間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達(dá)到了上線要求。

通過(guò) NVIDIA T4 深度優(yōu)化方案,成功為美團(tuán) CTR 模型創(chuàng)造更多應(yīng)用機(jī)會(huì),不僅極大地提升了系統(tǒng)吞吐量,更進(jìn)一步地提升了整個(gè)模型訓(xùn)練的速度與降低訓(xùn)練成本,落實(shí) AI 框架在 GPU 上性能推理的優(yōu)化實(shí)踐。

美團(tuán)研發(fā)工程師,機(jī)器學(xué)習(xí)平臺(tái)預(yù)測(cè)引擎負(fù)責(zé)人王新表示,“在美團(tuán)和英偉達(dá)的共同努力下, CTR 預(yù)測(cè)服務(wù)成功的遷移到 GPU 平臺(tái)上,在為業(yè)務(wù)提供更好的支撐的同時(shí)也獲得了更好的性價(jià)比;下一步,機(jī)器學(xué)習(xí)平臺(tái)計(jì)劃采用 NVIDIA Triton 推理服務(wù)框架和 NVIDIA Ampere A30 ,進(jìn)一步提升美團(tuán)推理服務(wù)的效率?!?/p>

原文標(biāo)題:美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)使用 NVIDIA GPU 助力公司 CTR 預(yù)測(cè)服務(wù)升級(jí)

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:彭菁
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10772

    瀏覽量

    210453
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4817

    瀏覽量

    102637
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29393

    瀏覽量

    267687
  • 美團(tuán)
    +關(guān)注

    關(guān)注

    0

    文章

    123

    瀏覽量

    10328

原文標(biāo)題:美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)使用 NVIDIA GPU 助力公司 CTR 預(yù)測(cè)服務(wù)升級(jí)

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    TI TDA2x SoC基于GPU的環(huán)視優(yōu)化

    電子發(fā)燒友網(wǎng)站提供《TI TDA2x SoC基于GPU的環(huán)視優(yōu)化.pdf》資料免費(fèi)下載
    發(fā)表于 10-10 09:14 ?0次下載
    TI TDA2x SoC<b class='flag-5'>上</b>基于<b class='flag-5'>GPU</b>的環(huán)視<b class='flag-5'>優(yōu)化</b>

    揭秘動(dòng)態(tài)化跨端框架在鴻蒙系統(tǒng)下的高性能解決方案

    平臺(tái)解決方案。 在研發(fā)團(tuán)隊(duì)使用后可大幅降低研發(fā)人力成本;為業(yè)務(wù)提供實(shí)時(shí)觸達(dá)、A/B觸達(dá)等能力以提升業(yè)務(wù)投放效率;同時(shí)保障了C端用戶優(yōu)秀的用戶體驗(yàn)。 一、動(dòng)態(tài)化跨端框架原理介紹 ? ? ? ? ? 通過(guò)上圖,我們先了解一下動(dòng)態(tài)化跨端框架在iOS、Android等多個(gè)平臺(tái)實(shí)現(xiàn)
    的頭像 發(fā)表于 10-08 13:46 ?541次閱讀
    揭秘動(dòng)態(tài)化跨端<b class='flag-5'>框架在</b>鴻蒙系統(tǒng)下的高<b class='flag-5'>性能</b>解決方案

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT問(wèn)世以來(lái),大模型遍地開(kāi)花,承載大模型應(yīng)用的高性能推理框架也不斷推出,大有百家爭(zhēng)鳴之勢(shì)。在這種情況下,澎峰科技作為全球領(lǐng)先的智能計(jì)算服務(wù)提供商,在2023年11月25日發(fā)布了針對(duì)大語(yǔ)言
    的頭像 發(fā)表于 09-29 10:14 ?265次閱讀
    澎峰科技高<b class='flag-5'>性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

    AI真·煉丹:整整14天,無(wú)需人類參與

    ,甚至是整個(gè)AI平臺(tái)或全流程加速實(shí)踐成果,重點(diǎn)就是如何更好地利用CPU來(lái)提升AI,包括大模型應(yīng)用的性能和效率。
    的頭像 發(fā)表于 07-02 14:15 ?212次閱讀
    <b class='flag-5'>AI</b>真·煉丹:整整14天,無(wú)需人類參與

    炬芯科技攜手趣戴科技推動(dòng)LiteGfx GUI框架在嵌入式終端智能設(shè)備應(yīng)用

    炬芯科技與上海趣戴科技有限公司(簡(jiǎn)稱“趣戴科技”)建立緊密合作關(guān)系,雙方攜手推動(dòng)LiteGfx GUI框架在嵌入式終端智能設(shè)備應(yīng)用,降低智能手表設(shè)備GUI界面的開(kāi)發(fā)門檻。該框架可模擬3D,并融合了
    的頭像 發(fā)表于 06-04 16:12 ?906次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    。 **英偉達(dá)Blackwell架構(gòu)在數(shù)據(jù)中心方面的應(yīng)用有哪些?** 1. **AI **大模型訓(xùn)練 Blackwell 架構(gòu)的 GPU 針對(duì)當(dāng)前火爆的 AI 大模型進(jìn)行了優(yōu)化,能夠
    發(fā)表于 05-13 17:16

    利用NVIDIA組件提升GPU推理的吞吐

    實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于
    的頭像 發(fā)表于 04-20 09:39 ?574次閱讀

    開(kāi)發(fā)者手機(jī) AI - 目標(biāo)識(shí)別 demo

    Lite的API接口實(shí)現(xiàn)主要功能; Mindspore Lite為Openharmony AI推理框架,為上層應(yīng)用提供統(tǒng)一的AI推理接口,
    發(fā)表于 04-11 16:14

    自然語(yǔ)言處理應(yīng)用LLM推理優(yōu)化綜述

    當(dāng)前,業(yè)界在將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時(shí),同時(shí)也在探索從大模型自回歸解碼特點(diǎn)出發(fā),通過(guò)調(diào)整推理過(guò)程和引入新的模型結(jié)構(gòu)來(lái)進(jìn)一步提升推理性能。
    發(fā)表于 04-10 11:48 ?506次閱讀
    自然語(yǔ)言處理應(yīng)用LLM<b class='flag-5'>推理</b><b class='flag-5'>優(yōu)化</b>綜述

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

    最后說(shuō),“我們決定專注于軟件業(yè)務(wù),探索研究提升神經(jīng)網(wǎng)絡(luò)性能和降低延遲的方案。Zebra 運(yùn)行在 FPGA ,因此無(wú)需更換硬件就可以支持 AI 推理。FPGA 固件的每次刷新都能給我
    發(fā)表于 03-21 15:19

    AI推理框架軟件ONNX Runtime正式支持龍架構(gòu)

    近日,知名AI推理框架開(kāi)源社區(qū)ONNX Runtime正式發(fā)布支持龍架構(gòu)的版本1.17.0。
    的頭像 發(fā)表于 03-12 12:23 ?503次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>框架</b>軟件ONNX Runtime正式支持龍架構(gòu)

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    使用 MindSpore Lite 推理框架時(shí),需要釋放已經(jīng)創(chuàng)建的模型。 // 釋放模型 OH_AI_ModelDestroy(&model); 調(diào)測(cè)驗(yàn)證 編寫 CMakeLists.txt
    發(fā)表于 12-14 11:41

    團(tuán)與華為合作,華為支持團(tuán)研發(fā)原生應(yīng)用

    根據(jù)合作協(xié)議,華為將全力幫助團(tuán)開(kāi)發(fā)針對(duì)鴻蒙系統(tǒng)的原生應(yīng)用,實(shí)現(xiàn)團(tuán)業(yè)務(wù)在手機(jī)、平板、車載設(shè)備等多個(gè)終端上的無(wú)縫連接。此外,鴻蒙的分布式設(shè)計(jì)和多端部署優(yōu)勢(shì),將為
    的頭像 發(fā)表于 11-15 17:26 ?1414次閱讀

    FPGA和CPU、GPU有什么區(qū)別?為什么越來(lái)越重要?

    ) 的,可以根據(jù)數(shù)據(jù)特點(diǎn)確定處理方式,不需要像 GPU 一樣將輸入的數(shù)據(jù)劃分成 Batch,因此可以做到最低的 時(shí)延,使得 FPGA 在進(jìn)行 AI 推理時(shí)具有非常大的優(yōu)勢(shì)。 FPGA在接口靈活性
    發(fā)表于 11-09 14:09

    現(xiàn)已公開(kāi)發(fā)布!歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語(yǔ)言模型推理

    NVIDIA 于 2023 年 10 月 19 日公開(kāi)發(fā)布 TensorRT-LLM ,可在 NVIDIA GPU 加速和優(yōu)化最新的大語(yǔ)言模型(Large Language Models)的
    的頭像 發(fā)表于 10-27 20:05 ?888次閱讀
    現(xiàn)已公開(kāi)發(fā)布!歡迎使用 NVIDIA TensorRT-LLM <b class='flag-5'>優(yōu)化</b>大語(yǔ)言模型<b class='flag-5'>推理</b>