4月2日?qǐng)?bào)道,盡管Siri在描述圖片信息的能力上不夠完善,但蘋(píng)果公司并未停止對(duì)人工智能領(lǐng)域的深入探索。其最新研究論文詳述了一種大幅提升Siri智能化水平的模型——ReALM。該模型在測(cè)試中超越了OpenAI的GPT-4.0著名語(yǔ)言模型。
據(jù)悉,ReALM的獨(dú)特特性是同時(shí)理解用戶屏幕內(nèi)容及正在執(zhí)行的操作。依據(jù)信息類型,論文將信息細(xì)分成三類:
(1)屏幕實(shí)體: 即當(dāng)前顯示在用戶屏幕上的內(nèi)容。
(2)對(duì)話實(shí)體: 指與對(duì)話相關(guān)的內(nèi)容。如,用戶請(qǐng)求“撥打母親的電話”,那么,母親的聯(lián)系信息便屬于此類。
(3)背景實(shí)體: 與用戶當(dāng)前操作或屏幕顯示內(nèi)容未必直接相關(guān)的實(shí)體,如正在播放的音樂(lè)或即將發(fā)出的報(bào)警鈴聲。
一旦成功實(shí)現(xiàn),ReALM將賦予Siri更高的智能化和實(shí)用性。該團(tuán)隊(duì)將ReALM與OpenAI的GPT-3.5和GPT-4.0進(jìn)行了性能比拼:
“我們以上下文信息作為輸入,對(duì)比了OpenAI的GPT-3.5和GPT-4.0模型預(yù)測(cè)實(shí)體的準(zhǔn)確程度。由于GPT-3.5僅支持文本輸入,故我們僅提供文字提示;而GPT-4允許理解圖片信息,所以我們給它提供了屏幕截圖,從而有效提高了屏幕實(shí)體識(shí)別的效率?!?/p>
那蘋(píng)果的ReALM是否具備如此強(qiáng)大的性能優(yōu)勢(shì)呢?
“我們的模型在識(shí)別各種類型實(shí)體方面都有顯著提升,即使是小尺寸模型,在屏幕實(shí)體識(shí)別準(zhǔn)確性上也已超過(guò)原有的系統(tǒng)5%以上。在與GPT-3.5和GPT-4.0的比較中,小型模型與GPT-4.0相媲美;更大的模型則表現(xiàn)更佳。”
論文得出的結(jié)論之一便是,有比GPT-4參數(shù)少許多的ReALM,卻仍可在性能上與之匹敵。在處理某些特定領(lǐng)域的用戶指令時(shí),ReALM甚至優(yōu)于其他模型,使其成為一款高效、實(shí)用且可本地運(yùn)行的實(shí)體識(shí)別系統(tǒng)。
而關(guān)鍵問(wèn)題在于,蘋(píng)果需尋求無(wú)損性能的方法來(lái)將此技術(shù)運(yùn)用至設(shè)備之中。據(jù)了解,預(yù)計(jì)6月10日舉行的WWDC 2024開(kāi)發(fā)者大會(huì)上,蘋(píng)果將會(huì)在iOS 18等新系統(tǒng)中展現(xiàn)更多人工智能技術(shù)創(chuàng)新成果,令人頗為期待。
-
模型
+關(guān)注
關(guān)注
1文章
3058瀏覽量
48570 -
GPT
+關(guān)注
關(guān)注
0文章
347瀏覽量
15243 -
蘋(píng)果公司
+關(guān)注
關(guān)注
2文章
447瀏覽量
22561
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論