最近中文字幕完整版免费视频,久久精品国产亚洲av麻豆色欲,高清拍拍拍无挡国产精品

電子發(fā)燒友網(wǎng)報道（文/周凱揚）隨著AGI生態(tài)的蓬勃發(fā)展，各種支持多模態(tài)的大模型推陳出新，比如最近比較火的音樂大模型Suno和文生視頻大模型Sora等等。然而在傳統(tǒng)基于文本的大語言模型上，除了追求更快更精準的推理和高并發(fā)流量以外，似乎已經(jīng)沒有太多值得廠商大肆宣傳的特性了，直到最近超長文本處理的爆火。

國產(chǎn)大模型的新卷法，長文本處理

當下將大模型長文本處理炒熱的，無疑是來自月之暗面的Kimi。作為去年發(fā)布的大模型，Kimi的主要賣點就是長文本，當時發(fā)布的初版Kimi，就已經(jīng)支持到最多20萬漢字的輸入處理。

然而僅僅20萬字的文本處理，還不至于給用戶帶來質(zhì)變的交互體驗，畢竟GPT-4 Turbo-128k已經(jīng)支持到約合10萬漢字的長文本處理，谷歌的Gemini pro也支持到最多70萬個單詞的上下文，但不少長篇小說、專業(yè)書籍的字數(shù)要遠超這一數(shù)字。

Kimi支持200萬字上下文 / 月之暗面

Kimi在最近爆火源于一項重大迭代升級，月之暗面將長文本處理的字數(shù)限制擴展到200萬字，遠超Claude3、GPT-4 Turbo和Gemini Pro模型。在新功能推出和有效推廣下，Kimi很快涌入了一大批用戶，其app甚至短暫地沖進了蘋果App Store前五的位置。然而這樣也對Kimi的運營造成了不小的壓力，Kimi在上周經(jīng)歷了多次宕機，這還是在月之暗面對服務器連續(xù)擴容的前提下。

面對競爭對手Kimi的用戶量激增，阿里巴巴和360很快就坐不住了。3月22日，阿里巴巴宣布通義千問將向所有用戶免費開放1000萬字的長文檔處理功能；3月23日，360智腦宣布正式內(nèi)測500萬字長文本處理功能，且該功能即將入駐360 AI瀏覽器。

除了阿里巴巴和360外，目前國內(nèi)訪問量第一的百度文心一言據(jù)傳也會在下月開放長文本處理功能，并計劃把字數(shù)上限提高至200萬甚至500萬字。

超長文本實現(xiàn)的技術(shù)難點和商業(yè)桎梏

盡管在用戶看來，阿里巴巴、360等廠商宣布支持超長文本處理好像是一件無需多少時間的易事，但實際上超長文本處理的實現(xiàn)存在不少技術(shù)痛點和商業(yè)成本問題。要知道在2022年，絕大多數(shù)的LLM上下文長度最多也只有2K，比如GPT-3。

直到GPT-4和Claude 2等，這些大模型才從架構(gòu)上對文本長度進行了優(yōu)化，可即便如此，主流的文本輸入長度依然不會超過100K。這也是因為對部分大模型而言，長文本不一定代表著更好的使用體驗，尤其是在查全率和準確率上。

Claude的上下文長度和召回率關(guān)聯(lián)圖 / Anthropic

以Anthropic給出的數(shù)據(jù)為例，從上圖可以看出，隨著文本長度的增加，召回率是在逐步降低的，即便是最新的Claude3也是如此，而召回率代表了檢索出相關(guān)信息量占總量的比率。至于精確度，則與上下文中的事實位置存在很大的關(guān)系，如果用戶問題的事實存在于文本開頭或后半部分的位置，那么更容易得到精確的結(jié)果，而位于10%到50%之間位置的文本，則精確度急劇下降。

除此之外，長文本對于GPU和內(nèi)存的資源消耗太大了，即便是小規(guī)模地擴展文本長度，動輒也要消耗100塊以上的GPU或TPU，這里指代的GPU還是A100這種單卡顯存容量高達40GB或80GB的設備。

這也是Kimi在經(jīng)歷大量用戶訪問后，需要緊急擴容的原因。而阿里巴巴之所以能這么快開放長文本能力，也是憑借著手握龐大的服務器資源。至于Anthropic，我們從Claude3 Opus高昂的Tokens價格，也可以猜到其硬件成本絕對不低。

另外，在持續(xù)火爆一年之后，目前的大模型應用也難以單純靠技術(shù)立足市場吸引用戶了，商業(yè)推廣也已經(jīng)成了必行之路。就以Kimi為例，在社交媒體上有關(guān)該應用的推廣可謂鋪天蓋地，很明顯對于新興的大模型應用而言，收獲第一批用戶才是至關(guān)重要的。

據(jù)傳Kimi在廣告投放上，吸引每位新用戶的花費在10元左右，而新用戶參與到使用中帶來的額外算力開銷在12元至13元左右。如果單單只是根據(jù)手機平臺app的下載量計算，那么Kimi的每日獲客成本至少為20萬人民幣，而這還未計算來自網(wǎng)頁端和小程序端的用戶。

AI產(chǎn)品國內(nèi)總榜 / AI產(chǎn)品榜

而且Kimi的推廣也不是從200萬長文本功能的推出才開始的，早在二月份Kimi就開始以長文本這一特性加強商業(yè)推廣了。從AI產(chǎn)品榜中可以看出，Kimi在2月的訪問量飆升，在國內(nèi)總榜中僅次于百度文心一言和阿里通義千問，足見其在商業(yè)推廣和產(chǎn)品運營上都下了血本。但相對ChatGPT和New Bing之類的應用而言，其訪問量還是存在很大的差距。

這也充分說明了為何國外的大模型應用沒有去卷200K以上文本長度的原因，目前算力、準確度和長文本之間的沖突限制了他們?nèi)グl(fā)展長文本。但這對于中國的大模型應用來說，反而是一個彎道超車的機會，因為大模型上的長文本能力確實帶來了用戶體驗上的改變。

長文本對于用戶體驗的改變

國產(chǎn)大模型為什么要去卷長文本，這是一個與大模型應用落地息息相關(guān)的問題。在過去，正是由于長文本能力不足，絕大多數(shù)大模型應用才會給人不堪大用的感覺，比如虛擬助手由于長文本能力不足，會遺忘重要信息；基于大模型來設計劇本殺等游戲規(guī)則時，上下文長度不夠只能在規(guī)則和設定上縮水，從而簡化游戲難度；在論文分析和法律法規(guī)解讀這樣的關(guān)鍵領域，更是因為缺乏長文本的支持，無法給到用戶精準的答案。

這與大模型卷參數(shù)規(guī)模不同，因為用戶已經(jīng)發(fā)現(xiàn)了即便是70B這個量級的大模型，在面對用戶的問題時，也會出現(xiàn)胡編亂造的問題。反倒是長文本提供了更多的上下文信息，大模型在對語義進行分析判斷后，會提供更加精確的答案，所以不少用戶才會借助Kimi來分解長篇小說、總結(jié)論文等。

不過在享受長文本處理帶來便利的同時，我們也應該注意下長文本處理背后潛在的信息安全和版權(quán)問題。對于過去短文本的處理，就已經(jīng)存在一些可能暴露用戶真實身份和隱私信息的問題，隨著長文本支持對于更大文件和更長文本的處理，有的人可能會選擇將合同、條例或標準等包含敏感信息的專業(yè)文件上傳到大模型上，又或是引入一些盜版文檔資源。

所以國家層面也開始出臺各種管理辦法，對于大模型語言模型在內(nèi)的生成式人工智能進行規(guī)范，不能侵犯知識產(chǎn)權(quán)并保護個人隱私。如此一來，對于大模型應用本身的信息脫敏也提出了更高的要求。

寫在最后

相信經(jīng)過一年的大模型應用轟炸后，不少用戶對于基本的AGI玩法已經(jīng)玩膩了，所以長文本、文生視頻這種新的交互方式才會讓人趨之若鶩。但我們也很少看到成功的長文本大模型商業(yè)化落地項目，畢竟在高額的獲客成本下，RAG這種外掛知識庫的方式可能更適合手中資金有限的初創(chuàng)AGI應用開發(fā)商。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

Agi

Agi

+關(guān)注

關(guān)注
0

文章
73

瀏覽量
10176
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2212

瀏覽量
2232
LLM

LLM

+關(guān)注

關(guān)注
0

文章
253

瀏覽量
285

Linux中cut命令的實用示例

Linux command cut 用于文本處理。您可以使用此命令通過選擇列從文件中提取部分文本。

發(fā)表于 08-05 15:14 ?230次閱讀

商湯大模型開“卷”長文本，支持100萬字處理

知情者透露，此次升級的日日新大模型還具備跨平臺操作特性，在Web和App端都可以使用。App端更是新增了粵語口語語音對話功能，進一步提升了模型對粵語及香港本土文化的理解。

發(fā)表于 05-29 11:43 ?353次閱讀

極氪汽車成功交付25萬輛，目標或?qū)?b class='flag-5'>超20萬輛

早在今年1月份，極氪就曾發(fā)布公告稱已贏得超過20萬臺的銷售業(yè)績。極氪智能科技副總裁林金文當時表示，他們將加快步伐，預計未來12個月內(nèi)將實現(xiàn)第二個20萬臺的銷售目標。這意味著，到2024

發(fā)表于 05-20 16:05 ?346次閱讀

MiniMax推出“海螺AI”，支持超長文本處理

近日，大模型公司MiniMax宣布，其全新產(chǎn)品“海螺AI”已正式上架。這款強大的AI工具支持高達200ktokens的上下文長度，能夠在1秒內(nèi)處理近3萬字的

發(fā)表于 05-17 09:30 ?640次閱讀

訊飛星火長文本功能全新升級

科大訊飛近日宣布，其首個長文本、長圖文、長語音大模型已完成全新升級。這一大模型不僅具備強大的學習能力，可以快速吸收海量文本、圖文資料以及會議錄音等多元化信息，更能在各行業(yè)場景中提供精準

發(fā)表于 05-06 11:22 ?480次閱讀

科大訊飛創(chuàng)新推出長文本、長圖文、長語音大模型，解決落地難題

近期，科大訊飛推出了首個支持長文本、長圖及語音大數(shù)據(jù)處理的大模型，該系統(tǒng)融合了多元化數(shù)據(jù)源，包括海量文字、圖片以及會議音頻等，能為各行業(yè)場景提供專業(yè)化、精準化的答案。

發(fā)表于 04-28 09:32 ?322次閱讀

訊飛星火大模型V3.5春季升級，多領域知識問答超越GPT-4 Turbo?

劉慶峰指出，現(xiàn)如今，星火大模型在通用長文本處理能力方面已相當成熟，覆蓋長文檔信息抽取、知識問答、歸納總結(jié)、文本生成等諸多領域，整體表現(xiàn)已達GPT-4 Turbo今年4月最新版的97%水

發(fā)表于 04-26 14:26 ?700次閱讀

AI初創(chuàng)企業(yè)推MoE混合專家模型架構(gòu)新品abab 6.5

losoev 6.5s：與 losoev 6.5 共享相同的訓練技術(shù)和數(shù)據(jù)，但效率更高，同樣支持 200k tokens 的上下文長度，且能夠在 1 秒鐘內(nèi)處理近 3 萬字的文本。

發(fā)表于 04-17 15:06 ?443次閱讀

Kimi爆火背后的技術(shù)奧秘大模型長文本能力的技術(shù)難點

當用戶認為在國內(nèi)的大模型中，長文本=kimi的時候，除非競爭對手能以絕對的實力碾壓幾個量級，但凡與kimi打平或者是微弱超越，都很難威脅到kimi在用戶心目中的地位。

發(fā)表于 04-17 10:11 ?1100次閱讀

Kimi爆火背后的技術(shù)奧秘大<b class='flag-5'>模型</b><b class='flag-5'>長文本</b>能力的技術(shù)難點

360開源70億參數(shù)模型，助力360k長文本輸入

周鴻祎指出，近期大模型產(chǎn)業(yè)正在以數(shù)據(jù)量為競爭重點，百萬字文本處理能力“有望成為未來標配”。他表示，360決定發(fā)布這項功能，以避免相關(guān)行業(yè)研發(fā)者重復投入精力，同時360K作為長度單位也是象征性的選擇。

發(fā)表于 03-29 15:54 ?344次閱讀

阿里通義千問重磅升級，免費開放1000萬字長文檔處理功能

近日，阿里巴巴旗下的人工智能應用通義千問迎來重磅升級，宣布向所有人免費開放1000萬字的長文檔處理功能，這一創(chuàng)新舉措使得通義千問成為全球文檔處理容量第一的AI應用。

發(fā)表于 03-26 11:09 ?693次閱讀

光伏戶用如何做到低成本獲客？

光伏戶用如何做到低成本獲客？隨著可再生能源的日益普及和技術(shù)的不斷進步，光伏系統(tǒng)正逐漸走進千家萬戶。然而，對于光伏企業(yè)來說，如何在激烈的市場競爭中低

發(fā)表于 02-27 10:33

快速全面了解大模型長文本能力

那關(guān)于LLM的長文本能力，目前業(yè)界通常都是怎么做的？有哪些技術(shù)點或者方向？今天我們就來總結(jié)一波，供大家快速全面了解。

發(fā)表于 02-22 14:04 ?764次閱讀

谷歌發(fā)布AI新版本Gemini 1.5

谷歌近日宣布推出其最新的人工智能（AI）版本——Gemini 1.5，這一新版本在文本處理能力上實現(xiàn)了重大突破。據(jù)了解，Gemini 1.5 Pro的上下文窗口長度已經(jīng)擴展到驚人的100萬個

發(fā)表于 02-19 11:05 ?995次閱讀

如何用AI聊天機器人寫出萬字長文

如何用AI聊天機器人寫出萬字長文

發(fā)表于 12-26 16:25 ?1002次閱讀

搜索歷史

單日獲客成本超20萬，國產(chǎn)大模型開卷200萬字以上的長文本處理

評論