狠狠躁天天躁中文字幕无码,亚洲日本日本精品18

無量推薦系統(tǒng)承載著騰訊PCG（平臺與內(nèi)容事業(yè)群）的推薦場景，包括：騰訊看點（瀏覽器、QQ看點、商業(yè)化）、騰訊新聞、騰訊視頻、騰訊音樂、閱文、應用寶、小鵝拼拼等。無量推薦系統(tǒng)支持日活躍用戶達數(shù)億級別，其中的模型數(shù)量達數(shù)千個，日均調(diào)用服務達到千億級別。無量推薦系統(tǒng)，在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算，是目前業(yè)界領先的體系結(jié)構(gòu)設計。

傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn)

傳統(tǒng)推薦系統(tǒng)具有以下特點：訓練是基于參數(shù)服務器的框架，解決海量數(shù)據(jù)和稀疏特征的分布式訓練問題。推理通常分離大規(guī)模Embedding和DNN，只能進行DNN的GPU加速。所以，傳統(tǒng)的推薦系統(tǒng)架構(gòu)具有一些局限性：1. 大規(guī)模分布式架構(gòu)有大量的額外開銷，比如參數(shù)和梯度的網(wǎng)絡收發(fā)。2. 隨著DNN模型復雜性的的進一步提升，CPU的計算速度開始捉襟見肘。隨著業(yè)務的快速增長，日活用戶增多，對其調(diào)用數(shù)量快速增加，給推薦系統(tǒng)后臺帶來了新的挑戰(zhàn)：1. 模型更加復雜，計算量更大，但是參數(shù)服務器的分布式架構(gòu)有效計算比很低。2. 海量Embedding因為規(guī)模龐大，查詢和聚合計算難以有效利用GPU高性能顯存和算力的優(yōu)勢。

GPU助力提升模型訓練和推理性價比

基于以上的挑戰(zhàn)，騰訊PCG（平臺與內(nèi)容事業(yè)群）選擇使用基于NVIDIA A100 GPU的分布式系統(tǒng)架構(gòu)來創(chuàng)建無量推薦系統(tǒng)。

1. 通過多級存儲和Pipeline優(yōu)化，在HPC上完成大規(guī)模推薦模型的GPU的高性能訓練。2. 基于特征訪問Power-law分布的特性，GPU緩存高頻特征參數(shù)，同時從CPU中動態(tài)獲取低頻特征參數(shù)，實現(xiàn)了大規(guī)模推薦模型完整的GPU端到端模型推理。

騰訊PCG有多種類型的推薦業(yè)務場景。比如信息流推薦的QQ瀏覽器、QQ看點、新聞推薦的騰訊新聞、視頻推薦的騰訊視頻、微視、App推薦的應用寶、以及騰訊音樂的音樂推薦和閱文集團的文學推薦。

無量推薦系統(tǒng)承載了這些推薦業(yè)務場景的模型訓練和推理服務。基于傳統(tǒng)的推薦系統(tǒng)架構(gòu)，無量推薦系統(tǒng)使用大量CPU資源，通過分布式架構(gòu)可以擴展到TB級模型的訓練和部署，取得了巨大的成功。隨著業(yè)務的快速增長，日活用戶增多，對其調(diào)用數(shù)量快速增加，傳統(tǒng)架構(gòu)局限性限制了推薦系統(tǒng)的架構(gòu)擴展和性能提升。

通過使用GPU訓練和推理，單機多卡的GPU算力可以達到數(shù)十臺CPU機器的算力，節(jié)省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding，以及并行算力處理DNN推理，單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。目前基于GPU的推薦架構(gòu)可以提升模型訓練和推理性價比1~3倍。

未來，無量推薦系統(tǒng)將不斷優(yōu)化推薦模型在GPU上的應用，利用HPC多機多卡，混合精度等能力，進一步提高推薦場景使用GPU的性價比。

重磅！NVIDIA行業(yè)微站一睹為快！內(nèi)容涵蓋NVIDIA主要的12大行業(yè)方案，以及NVIDIA當期重點產(chǎn)品資料。

責任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4818

瀏覽量
102646

原文標題：NVIDIA A100 GPU助力騰訊PCG加速無量推薦系統(tǒng)

文章出處：【微信號：murata-eetrend，微信公眾號：murata-eetrend】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

為什么ai模型訓練要用gpu

GPU憑借其強大的并行處理能力和高效的內(nèi)存系統(tǒng)，已成為AI模型訓練不可或缺的重要工具。

發(fā)表于 10-24 09:39 ?85次閱讀

開箱即用，AISBench測試展示英特爾至強處理器的卓越推理性能

近期，第五代英特爾?至強?可擴展處理器通過了中國電子技術標準化研究院組織的人工智能服務器系統(tǒng)性能測試（AISBench）。英特爾成為首批通過AISBench大語言模型（LLM）推理性能測試的企業(yè)

發(fā)表于 09-06 15:33 ?228次閱讀

開箱即用，AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性</b>能

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區(qū)是中國最具影響力的模型開源社區(qū)，致力給開發(fā)者提供模型即服務的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM，大大提高了大語言模型的

發(fā)表于 08-23 15:48 ?309次閱讀

摩爾線程和滴普科技完成大模型訓練與推理適配

近日，摩爾線程與滴普科技宣布了一項重要合作成果。摩爾線程的夸娥（KUAE）千卡智算集群與滴普科技的企業(yè)大模型Deepexi已完成訓練及推理適配，共同實現(xiàn)了700億參數(shù)LLaMA2大語言模型

發(fā)表于 05-30 10:14 ?456次閱讀

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

。 **英偉達Blackwell架構(gòu)在數(shù)據(jù)中心方面的應用有哪些？** 1. **AI **大模型訓練 Blackwell 架構(gòu)的 GPU 針對當前火爆的 AI 大模型進行了優(yōu)化，能夠

發(fā)表于 05-13 17:16

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網(wǎng)絡和熱

發(fā)表于 04-20 09:39 ?578次閱讀

自然語言處理應用LLM推理優(yōu)化綜述

當前，業(yè)界在將傳統(tǒng)優(yōu)化技術引入 LLM 推理的同時，同時也在探索從大模型自回歸解碼特點出發(fā)，通過調(diào)整推理過程和引入新的模型結(jié)構(gòu)來進一步提升

發(fā)表于 04-10 11:48 ?509次閱讀

利用NVIDIA產(chǎn)品技術組合提升用戶體驗

本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學習模型，并借助NVIDIA Triton推理服務器在NVIDIA V1

發(fā)表于 01-17 09:30 ?608次閱讀

CPU也可以完美運行大模型英特爾第五代至強重磅發(fā)布

處理器,它來了! 若是用一句話來概括它的特點,那就是——AI味道越發(fā)得濃厚。以訓練、推理大模型為例: ? ? ? ? ? ? 與第四代相比,訓練性能

發(fā)表于 12-22 11:52 ?565次閱讀

用上這個工具包，大模型推理性能加速達40倍

作者：英特爾公司沈海豪、羅嶼、孟恒宇、董波、林俊編者按：只需不到9行代碼，就能在CPU上實現(xiàn)出色的LLM推理性能。英特爾 ?Extension for Transformer 創(chuàng)新

發(fā)表于 12-01 20:40 ?1055次閱讀

NVIDIA 為部分大型亞馬遜 Titan 基礎模型提供訓練支持

本文將介紹亞馬遜如何使用 NVIDIA NeMo 框架、GPU 以及亞馬遜云科技的 EFA 來訓練其最大的新一代大語言模型（LLM）。大語言模型

發(fā)表于 11-29 21:15 ?485次閱讀

Google的第五代TPU，推理性能提升2.5倍

　Gridspace 機器學習主管Wonkyum Lee表示：“我們的速度基準測試表明，在 Google Cloud TPU v5e 上訓練和運行時，AI 模型的速度提高了 5 倍。我們還看到推理

發(fā)表于 11-24 10:27 ?521次閱讀

NVIDIA Merlin 助力陌陌推薦業(yè)務實現(xiàn)高性能訓練優(yōu)化

通過 Merlin 大幅提升大規(guī)模深度多目標精排模型訓練性能本案例中，NVIDIA 團隊與陌陌推薦系統(tǒng)團隊深度合作，共同使用 NVIDIA

發(fā)表于 11-09 10:45 ?305次閱讀

中國計算機大會現(xiàn)場王海峰揭秘文心大模型4.0

王海峰表示，基于更強平臺、更優(yōu)數(shù)據(jù)、更好算法，我們訓練出規(guī)模更大、效果更好的文心大模型4.0。通過飛槳與文心的協(xié)同優(yōu)化，模型周均訓練有效率超過98%，

發(fā)表于 10-29 11:35 ?689次閱讀

現(xiàn)已公開發(fā)布！歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

NVIDIA 于 2023 年 10 月 19 日公開發(fā)布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和優(yōu)化最新的大語言模型（Large Language Mode

發(fā)表于 10-27 20:05 ?899次閱讀