0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

后發(fā)而先至的騰訊混元大模型,到底有哪些技術(shù)亮點(diǎn)?

鮮棗課堂 ? 來源:鮮棗課堂 ? 2023-09-12 17:25 ? 次閱讀

2023年的夏天已經(jīng)結(jié)束了,但是,圍繞AIGC大模型的關(guān)注熱度,卻絲毫沒有衰退的意思。

在過去的大半年里,我們親眼見證了大模型浪潮的崛起,甚至可以說是瘋狂。截止7月,國(guó)內(nèi)的大模型數(shù)量,已經(jīng)超過130個(gè)。

這些大模型的創(chuàng)造者,既有國(guó)有及民營(yíng)企業(yè),也有大學(xué)、科研院所等研究機(jī)構(gòu)。從某種意義上來說,發(fā)布大模型,已經(jīng)成為宣示自身實(shí)力的一種方式。

不知道大家有沒有注意到,國(guó)內(nèi)互聯(lián)網(wǎng)大廠百度和阿里,都早早推出了自家的大模型。而身為BAT“三巨頭”之一的騰訊,卻一直很低調(diào)。

幾天前,9月7日,在2023騰訊全球數(shù)字生態(tài)大會(huì)上,騰訊自家的通用大語言模型——騰訊混元大模型終于亮相了。

為什么騰訊的大模型“不著急”?是他們不重視這場(chǎng)科技浪潮嗎?還是說,他們的AI技術(shù)不足,在競(jìng)爭(zhēng)中落后于人?

很顯然,這些說法都不對(duì)。

ChatGPT是AIGC大模型浪潮的導(dǎo)火線,但是,它并不是大模型的最早開端。

業(yè)界對(duì)大模型的研究,其實(shí)早幾年就已經(jīng)開始了。當(dāng)時(shí),AIGC并沒有這么高的熱度。2022年底,ChatGPT橫空出世,展現(xiàn)出驚人的自然語言能力,才徹底激發(fā)了整個(gè)社會(huì)對(duì)大模型的關(guān)注。

正如前面所說,很多企業(yè)之所以不惜一切代價(jià)搞大模型,完全是為了追逐“風(fēng)口”。

騰訊集團(tuán)副總裁蔣杰在采訪中介紹:“在騰訊內(nèi)部,混元已經(jīng)內(nèi)測(cè)很久了,不是現(xiàn)在第一天才有。”騰訊是國(guó)內(nèi)最早研究大模型的企業(yè)之一。2021年,騰訊推出了千億規(guī)模的NLP大模型。2022年,騰訊推出萬億參數(shù)的 NLP 稀疏大模型。換言之,他們的大模型研究,是國(guó)內(nèi)領(lǐng)先的。

ChatGPT火了之后,騰訊更加理性地思考了自己的大模型戰(zhàn)略,提出了四大靈魂拷問:

1、自己為什么要搞大模型?

2、自己的大模型,要怎么搞?

3、自己的大模型,要搞成什么樣?

4、搞出大模型之后,到底怎么用?

在經(jīng)過審慎思考和激烈討論之后,他們終于理清了自己的答案,按照自己的節(jié)奏,穩(wěn)步向前推進(jìn)。

騰訊混元大模型,就是在這樣的背景下誕生的。

接下來,我們不妨仔細(xì)看看,騰訊混元大模型,究竟是如何解答這四個(gè)靈魂之問的。

█問題1:為什么要搞大模型?

今年3月,騰訊總裁兼投資委員會(huì)主席劉熾平,在財(cái)報(bào)電話會(huì)議上曾經(jīng)表示:“AI將成為公司未來業(yè)務(wù)增長(zhǎng)的放大器。生成式AI和基礎(chǔ)模型技術(shù)可以補(bǔ)充優(yōu)化騰訊的業(yè)務(wù)?!?(大模型)將在未來對(duì)每個(gè)業(yè)務(wù)線都起到正向補(bǔ)充作用。同時(shí),這也有助于推出新業(yè)務(wù)?!?/p>

他還表示,“我們希望沿著正確的路線踏實(shí)前進(jìn),不急于求成,先打好基礎(chǔ),再追求新進(jìn)展,我們的第一款產(chǎn)品將會(huì)是多次迭代之后的產(chǎn)品,整個(gè)過程將是長(zhǎng)期的?!?/p>

他的表態(tài),其實(shí)已經(jīng)說明了騰訊對(duì)大模型的戰(zhàn)略基調(diào)——緊密結(jié)合自身業(yè)務(wù)線,穩(wěn)步推進(jìn),長(zhǎng)期迭代。

在發(fā)布會(huì)上,騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 CEO 湯道生也提到:“大模型需要基于產(chǎn)業(yè)場(chǎng)景,與企業(yè)數(shù)據(jù)融合,才能釋放出最大的價(jià)值?!?/p>

也就是說,騰訊不會(huì)為了搞大模型而搞大模型。既然要搞,就是沖著實(shí)用性去的。

基于這個(gè)目標(biāo)搞出來的混元大模型,是“從實(shí)踐中來,到實(shí)踐中去”的實(shí)用級(jí)大模型。它關(guān)注的不是推出速度和評(píng)測(cè)跑分,而是如何真正與實(shí)際場(chǎng)景結(jié)合,滿足用戶的真實(shí)需求。

█問題2:大模型,到底該怎么搞?

大模型是一場(chǎng)技術(shù)博弈。既然決定要做,就必須做出差異化的競(jìng)爭(zhēng)優(yōu)勢(shì),找準(zhǔn)技術(shù)路線。

騰訊混元大模型,最大的特點(diǎn),就是——全鏈路自研。

行業(yè)里現(xiàn)有的很多大模型,都是開源大模型。東西拿來就用,依葫蘆畫瓢,當(dāng)然推出速度會(huì)快。

蔣杰表示,騰訊是一個(gè)海量高并發(fā)的業(yè)務(wù),開源的架構(gòu)并不適應(yīng)騰訊,一定要走出一套基于自主體系的研發(fā)之路。唯有自研,才能完全掌握技術(shù)內(nèi)核,將大模型更好地融入到自身的技術(shù)棧中。所以,他們走上了更加具有挑戰(zhàn)性的自研之路。

騰訊混元大模型從第一個(gè)token開始從零訓(xùn)練,掌握了從模型算法機(jī)器學(xué)習(xí)框架,再到AI基礎(chǔ)設(shè)施的全鏈路自研技術(shù)。

算法方面,騰訊在預(yù)訓(xùn)練上從零啟動(dòng)訓(xùn)練,優(yōu)化預(yù)訓(xùn)練算法及策略,精調(diào)及強(qiáng)化學(xué)習(xí),改進(jìn)注意力機(jī)制,并開發(fā)了思維鏈新算法。

機(jī)器學(xué)習(xí)框架方面,騰訊采用的是自主研發(fā)的機(jī)器學(xué)習(xí)框架Angel,訓(xùn)練速度相比業(yè)界主流框架提升1倍,推理速度比業(yè)界主流框架提升1.3倍。

基礎(chǔ)設(shè)施方面,采用基于云星星海自研服務(wù)器的新一代HCC高性能算力集群,搭載了超強(qiáng)算力GPU,性能提升了3倍。

算力集群所基于的網(wǎng)絡(luò)底座——星脈,具備業(yè)界最高的3.2T通信帶寬,可以為AI大模型帶來10倍通信性能提升。通過自研TiTa協(xié)議和自研TCCL通信庫(kù),星脈網(wǎng)絡(luò)可將網(wǎng)絡(luò)利用率從普通以太網(wǎng)的60%提升到90%以上,極大提高整體集群的算力利用率。

根據(jù)驗(yàn)證,騰訊新一代計(jì)算集群可以幫助混元NLP大模型訓(xùn)練在同等數(shù)據(jù)集下,將訓(xùn)練時(shí)間由50天縮短到4天。

█問題3:大模型,要搞成什么樣?

全鏈路自研,投入雖然大,但回報(bào)也是顯著的。

騰訊混元大模型,擁有超千億參數(shù)規(guī)模,預(yù)訓(xùn)練語料超2萬億tokens,具備強(qiáng)大的中文創(chuàng)作能力,復(fù)雜語境下的邏輯推理能力,以及可靠的任務(wù)執(zhí)行能力。

相比于業(yè)界已有的大模型,騰訊混元大模型在可靠性和成熟度方面,有巨大的提升。

首先,它可以降低大語言模型的幻覺比例。

使用過大模型的讀者都知道,大模型很容易出現(xiàn)“一本正經(jīng)胡說八道”的問題。也就是說,AI模型生成了不屬于現(xiàn)實(shí)世界的內(nèi)容。這就是“幻覺”?!盎糜X”是大語言模型每一個(gè)廠家都應(yīng)該面臨的重要問題,無論技術(shù)做到什么程度,在當(dāng)前的模型架構(gòu)下,都無法回避“幻覺”。

針對(duì)“幻覺”問題,當(dāng)前業(yè)界普遍的解決方式是采用外掛插件,即給大模型“外掛”一個(gè)知識(shí)庫(kù),使其在推理時(shí)進(jìn)行檢索,基于檢索結(jié)果再進(jìn)行輸出,提高正確率。

這個(gè)方式,在遇到復(fù)雜任務(wù)時(shí),效果有限。

騰訊混元大模型所采取的方式,是在預(yù)訓(xùn)練階段,就通過“探真”算法,進(jìn)行事實(shí)修正。它擺脫了對(duì)外掛的依賴,有效降低了復(fù)雜任務(wù)中的幻覺。

根據(jù)測(cè)試,經(jīng)過預(yù)訓(xùn)練算法及策略的整體優(yōu)化后,混元大模型相比其他主流開源大模型,幻覺比例降低了30%-50%。

48a4265c-514a-11ee-a25d-92fbcf53809c.png

更多的理性,更少的“胡說八道”

其次,混元大模型的“陷阱”識(shí)別能力大幅提升,可以更好地抗拒“誘導(dǎo)”。

人們?cè)谑褂么竽P蜁r(shí),經(jīng)常會(huì)對(duì)它進(jìn)行“調(diào)戲”。也就是說,問一些刁鉆問題,給大模型設(shè)置“陷阱”,得到令人啼笑皆非的答案。

騰訊通過強(qiáng)化學(xué)習(xí)的方法,讓混元大模型學(xué)會(huì)識(shí)別“陷阱”,對(duì)“調(diào)戲”說不,提升應(yīng)用的安全性和智能感。根據(jù)數(shù)據(jù)顯示,面對(duì)安全誘導(dǎo)類問題,混元大模型的拒答率提升了20%。

48d0ab5a-514a-11ee-a25d-92fbcf53809c.png

拒絕“挖坑”

除了上面提到的可靠性改進(jìn)之外,混元也大幅提升了成熟性。

混元大模型覆蓋了短文本和千字級(jí)別長(zhǎng)文本生成能力。

當(dāng)前市面上大模型在超長(zhǎng)任務(wù)處理上很難實(shí)現(xiàn)。騰訊通過位置編碼優(yōu)化,提升長(zhǎng)文的處理效果和性能,結(jié)合指令跟隨優(yōu)化,讓產(chǎn)出內(nèi)容更符合字?jǐn)?shù)要求,從而提升超長(zhǎng)文本的生成和續(xù)寫能力。

在邏輯思考能力上,混元大模型持結(jié)合實(shí)際場(chǎng)景推理決策。

在大模型訓(xùn)練中,一些團(tuán)隊(duì)會(huì)讓大模型通過“死記硬背”的方式學(xué)會(huì)中小學(xué)的數(shù)學(xué)題。但是在現(xiàn)實(shí)生活中,靠“背題”是不夠的,還需要讓大模型具備理解上下文的能力。騰訊推出思維鏈新策略,有效強(qiáng)化模型對(duì)問題拆解和分步思考的傾向。

以上這些特性,使得混元大模型在使用體驗(yàn)上和傳統(tǒng)大模型有明顯區(qū)別。它的智能化程度更好,表現(xiàn)更加穩(wěn)定,更像是一個(gè)真正的專家和助手。

在中國(guó)信通院《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用的評(píng)估方法》的標(biāo)準(zhǔn)符合性測(cè)試中,混元大模型共測(cè)評(píng)了66個(gè)能力項(xiàng)。在“模型開發(fā)(共測(cè)試29個(gè)能力項(xiàng))”和“模型能力(共測(cè)試37個(gè)能力項(xiàng))”這兩個(gè)重要領(lǐng)域的綜合評(píng)價(jià)中,均獲得了當(dāng)前的最高分。

█問題4:混元大模型,到底怎么用?

前面我提到,混元大模型是“從實(shí)踐中來,到實(shí)踐中去”的實(shí)用級(jí)大模型。為了充分發(fā)揮混元的實(shí)用價(jià)值,騰訊率先將自己的眾多互聯(lián)網(wǎng)業(yè)務(wù)與混元進(jìn)行結(jié)合、落地。

目前,騰訊云、騰訊廣告、騰訊游戲、騰訊金融科技、騰訊會(huì)議、騰訊文檔、微信搜一搜、QQ瀏覽器等50多個(gè)騰訊內(nèi)部業(yè)務(wù)和產(chǎn)品,已經(jīng)接入騰訊混元大模型測(cè)試并取得初步效果。

騰訊機(jī)器學(xué)習(xí)平臺(tái)部副總經(jīng)理王迪提到,騰訊混元大模型和各個(gè)產(chǎn)品的結(jié)合,并不是一種強(qiáng)制綁定的關(guān)系,而是更關(guān)注產(chǎn)品在用戶體驗(yàn)上的優(yōu)化,關(guān)注哪些地方可以通過AI提效。

例如,基于混元的騰訊會(huì)議AI小助手,可以快速實(shí)現(xiàn)會(huì)中問答、會(huì)議摘要、會(huì)議待辦項(xiàng)等多種事項(xiàng)。

再例如,基于混元的騰訊文檔智能助手功能(內(nèi)測(cè)中),不僅支持?jǐn)?shù)十種文本創(chuàng)作場(chǎng)景,還能生成上百種專業(yè)文書規(guī)范,以及用自然語言生成數(shù)百種Excel公式等。

王迪表示,在將大模型的能力和業(yè)務(wù)場(chǎng)景結(jié)合的過程中,需要做大量的工作,比如怎么把混元大模型的基礎(chǔ)指令理解能力、文字總結(jié)能力與會(huì)議APP里AI的能力和會(huì)議內(nèi)容生成能力結(jié)合。如果只是單純將大模型直接放進(jìn)去,短期不一定真的能夠?qū)I(yè)務(wù)帶來很大的提升。一定是針對(duì)業(yè)務(wù)場(chǎng)景進(jìn)行專門的優(yōu)化和提效,才能達(dá)到更好的效果。

在混元大模型的研究過程中,其實(shí)就已經(jīng)從騰訊豐富的應(yīng)用場(chǎng)景中進(jìn)行了技術(shù)積累。場(chǎng)景鍛煉了模型,模型反過來服務(wù)場(chǎng)景,形成了良性循環(huán)。

蔣杰表示,騰訊混元大模型團(tuán)隊(duì)關(guān)注的首先是做好技術(shù)本身,回歸本質(zhì),做好技術(shù)的突破和路徑規(guī)劃。在內(nèi)部,會(huì)把混元所有的能力開放給騰訊所有的業(yè)務(wù)。

內(nèi)部業(yè)務(wù)場(chǎng)景的實(shí)踐,是為外部服務(wù)開放做準(zhǔn)備。在發(fā)布會(huì)上,蔣杰鄭重宣布:騰訊混元大模型已正式通過騰訊云對(duì)外開放,助力全行業(yè)。

混元大模型將作為騰訊云MaaS服務(wù)的底座,用戶不僅可以直接通過API調(diào)用混元,也可以將混元作為基底模型,為不同產(chǎn)業(yè)場(chǎng)景構(gòu)建專屬應(yīng)用。

█結(jié)語

騰訊對(duì)四大靈魂之問的探索,最終為混元大模型的問世奠定了基礎(chǔ)。

正所謂“方向?qū)α?,努力才有意義”。騰訊在喧囂躁動(dòng)中堅(jiān)持理性思考,在找準(zhǔn)目標(biāo)后,果斷投入,進(jìn)行艱苦自研。最終,他們拿出了能經(jīng)受考驗(yàn)的產(chǎn)品,也走出了自己的獨(dú)特道路。

他們的做法無疑是正確的,也帶給整個(gè)行業(yè)以啟示。在百模大戰(zhàn)逐漸升級(jí)的今天,很多公司都將面對(duì)自己的靈魂拷問。

大浪淘沙沙去盡,沙盡之時(shí)見真金。唯有那些給出正確答案的大模型,才能笑到最后,成為真正的贏家。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1634

    瀏覽量

    49356
  • ChatGPT
    +關(guān)注

    關(guān)注

    28

    文章

    1523

    瀏覽量

    7249
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2206

    瀏覽量

    2229

原文標(biāo)題:后發(fā)而先至的騰訊混元大模型,到底有哪些技術(shù)亮點(diǎn)?

文章出處:【微信號(hào):鮮棗課堂,微信公眾號(hào):鮮棗課堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    CMOS運(yùn)放的輸入阻抗到底有多高呢?

    都說CMOS運(yùn)放輸入阻抗高,到底有多高呢?可有一個(gè)量化指標(biāo)?
    發(fā)表于 09-06 06:59

    百度萬象大會(huì)2024 聚焦智能體生態(tài)新進(jìn)展

    同時(shí),騰訊亦將推出大模型應(yīng)用程序“元寶”,此乃基于其自研的模型,此前已通過網(wǎng)頁和小程序形式發(fā)布了
    的頭像 發(fā)表于 05-30 11:08 ?428次閱讀

    騰訊器免費(fèi)模型資源增至1億tokens,模型全面降價(jià)

    騰訊方面獲悉,一站式智能體創(chuàng)作與分發(fā)平臺(tái)騰訊器即日起全面升級(jí)了模型資源扶持方案。
    的頭像 發(fā)表于 05-27 14:22 ?646次閱讀

    騰訊云大模型價(jià)格調(diào)整:-lite、-standard免費(fèi),-pro降價(jià)

    據(jù)了解,騰訊模型騰訊全鏈路自研的萬億參數(shù)大模型,采用混合專家
    的頭像 發(fā)表于 05-23 17:05 ?687次閱讀

    模型在端側(cè)迅速落地,面臨哪些挑戰(zhàn)

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)大模型技術(shù)正在快速發(fā)展,并在不同領(lǐng)域取得顯著進(jìn)展。如在設(shè)計(jì)領(lǐng)域,近日消息,騰訊
    的頭像 發(fā)表于 05-15 01:16 ?2794次閱讀

    聯(lián)發(fā)科2024年天璣開發(fā)者大會(huì)展示多項(xiàng)尖端技術(shù)和戰(zhàn)略計(jì)劃,助力產(chǎn)業(yè)發(fā)展

    此外,聯(lián)發(fā)科與Counterpoint及阿里云通義AI、百川智能、虎牙直播、酷狗音樂、OPPO、騰訊AI Lab、騰訊、vivo等生態(tài)伙
    的頭像 發(fā)表于 05-07 14:45 ?324次閱讀

    是德科技如何賦能醫(yī)療AI大模型應(yīng)用呢?

    自從ChatGPT爆火以來,各種AI大模型紛紛亮相,如百度科技的文心一言,科大訊飛的訊飛星火,華為的盤古AI大模型,騰訊AI大
    的頭像 發(fā)表于 02-28 09:35 ?2279次閱讀

    網(wǎng)線到底有多少種連接器

    我們?cè)谡務(wù)摼W(wǎng)線的時(shí)候,聊得最多的,一定是它的連接器,它在連接過程中扮演著極為重要的角色。網(wǎng)線到底有多少種連接器?本期我們將從工業(yè)級(jí)使用出發(fā),來看看這根似乎普通的網(wǎng)線,在連接器上有多么努力。
    的頭像 發(fā)表于 01-26 10:06 ?519次閱讀

    COB與SMD到底有什么不同?

    COB與SMD到底有什么不同?? COB和SMD是兩種常見的電子元器件封裝技術(shù)。它們?cè)陔娮有袠I(yè)中被廣泛應(yīng)用,尤其在LED照明領(lǐng)域。雖然它們都用于將芯片連接到電路板上,但它們?cè)诜庋b技術(shù)和應(yīng)用方面有一些
    的頭像 發(fā)表于 12-29 10:34 ?1562次閱讀

    去耦濾波電容怎么布局?jǐn)[放,到底小還是大?

    去耦濾波電容怎么布局?jǐn)[放,到底小還是大?
    的頭像 發(fā)表于 12-04 15:43 ?2175次閱讀
    去耦濾波電容怎么布局?jǐn)[放,<b class='flag-5'>到底</b>是<b class='flag-5'>先</b>大<b class='flag-5'>后</b>小還是<b class='flag-5'>先</b>小<b class='flag-5'>后</b>大?

    騰訊英偉達(dá)H800 AI芯片儲(chǔ)備已足夠開發(fā)好幾代通用大模型

    騰訊總裁劉熾平在周三財(cái)報(bào)發(fā)布的分析師電話會(huì)議上表示,公司已經(jīng)儲(chǔ)存大量英偉達(dá)H800 AI 芯片,足以再開發(fā)好幾代自家的通用大模型」。
    的頭像 發(fā)表于 11-22 17:00 ?1029次閱讀

    騰訊:已儲(chǔ)備足夠英偉達(dá)芯片!

    劉熾平表示,騰訊已經(jīng)儲(chǔ)備足夠的英偉達(dá)芯片,可以繼續(xù)開發(fā)名為“”的人工智能模型,“至少再持續(xù)幾代”。因此,新的芯片限制短期內(nèi)不會(huì)影響騰訊A
    的頭像 發(fā)表于 11-22 17:00 ?582次閱讀

    請(qǐng)問MSP430到底有幾個(gè)時(shí)鐘呀?

    請(qǐng)問MSP430到底有幾個(gè)時(shí)鐘呀
    發(fā)表于 11-03 06:36

    COB與SMD到底有什么不同

    如今在應(yīng)用領(lǐng)域,COB和SMD兩種技術(shù)正在“平分春色”,但在微小間距LED領(lǐng)域,COB正在成為各大廠商都在爭(zhēng)相研發(fā)的行業(yè)主流技術(shù)。那么COB與SMD到底有什么不同呢?
    的頭像 發(fā)表于 11-02 09:37 ?2367次閱讀
    COB與SMD<b class='flag-5'>到底有</b>什么不同

    服務(wù)機(jī)器人的核心技術(shù)到底有哪些

    機(jī)器人的基本架構(gòu)通常包括中央處理器 (CPU)、電源/電池管理單元、電池充電器、無線通信 (COM) 模塊、人機(jī)界面 (HMI)、傳感器及驅(qū)動(dòng)模塊(刷和無刷電機(jī))。那么,服務(wù)機(jī)器人的核心技術(shù)到底有哪些呢?
    發(fā)表于 10-26 10:23 ?512次閱讀
    服務(wù)機(jī)器人的核心<b class='flag-5'>技術(shù)</b><b class='flag-5'>到底有</b>哪些