微軟的一項新AI項目旨在自動為文檔和電子郵件中的圖像添加字幕,以便視覺障礙軟件讀取圖像。
微軟的研究人員在有關預印本存儲庫arXiv的論文中解釋了他們的機器學習模型的原理。
該模型使用可視語音詞匯預訓練(VIVO),它利用大量成對的圖像標簽數(shù)據(jù)來學習視覺詞匯。然后,使用帶有適當字幕的圖像的第二個數(shù)據(jù)以幫助教AI如何最好地描述圖片。
“理想情況下,每個人都應在文檔,網(wǎng)絡,社交媒體中為所有圖像添加替代文本,因為這可以使盲人訪問內容并參與對話。但是,可惜,人們卻沒有?!蔽④汚I平臺小組的軟件工程經(jīng)理Saqib Shaikh說。
總體而言,研究人員希望AI能夠提供Microsoft現(xiàn)有字幕系統(tǒng)兩倍的性能。
為了對新AI的性能進行基準測試,研究人員將其納入了“無上限”挑戰(zhàn)。在撰寫本文時,Microsoft的AI現(xiàn)在在其排行榜上排名第一。
“無上限的挑戰(zhàn)實際上是如何描述您在訓練數(shù)據(jù)中沒有看到的那些新穎的物體?”微軟研究實驗室的首席研究經(jīng)理王麗娟評論道。
希望使用Microsoft自動字幕AI來構建應用程序的開發(fā)人員已經(jīng)可以這樣做,因為Azure Cognitive Services的Computer Vision軟件包中提供了該功能。
微軟令人印象深刻的SeeingAI應用程序將使用新的AI進行更新,該應用程序使用計算機視覺描述視力障礙者的周圍環(huán)境。
“圖像字幕是可以實現(xiàn)廣泛服務的核心計算機視覺功能之一,”Azure AI認知服務的CTO黃表示。
黃繼續(xù)說:“我們AI的這一突破以Azure為平臺,以服務于更多客戶?!?“這不僅是研究上的突破;在Azure上將突破轉化為生產(chǎn)所需的時間也是突破?!?/p>
改進的自動字幕功能也有望在今年晚些時候在Outlook,Word和PowerPoint中使用。
責任編輯:YYX
-
微軟
+關注
關注
4文章
6535瀏覽量
103808 -
AI
+關注
關注
87文章
29364瀏覽量
267647
發(fā)布評論請先 登錄
相關推薦
評論