0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Microsoft Editor是怎樣實現(xiàn)零COGS的?

微軟科技 ? 來源:未知 ? 2023-06-13 00:15 ? 次閱讀

編者按:Microsoft Editor 是一款人工智能寫作輔助工具,其中的語法檢查器(grammar checker)功能不僅可以幫助不同水平、領(lǐng)域的用戶在寫作過程中檢查語法錯誤,還可以對錯誤進行解釋并給出正確的修改建議。神經(jīng)語法檢查器模型是這款提供了強大拼寫檢查和語法糾正服務(wù)的 Microsoft Editor 背后的關(guān)鍵技術(shù),該模型采用了微軟亞洲研究院創(chuàng)新的 Aggressive Decoding 算法,并借助高性能 ONNX Runtime(ORT) 進行加速,使服務(wù)器端的模型推理速度提升了200%,在不損失模型預(yù)測質(zhì)量的情況下,節(jié)省了三分之二的成本。神經(jīng)語法檢查器模型還使用了微軟亞洲研究院前沿的客戶端 seq2seq 建模技術(shù) EdgeFormer,構(gòu)建了性能優(yōu)異的輕量級生成語言模型,結(jié)合部署中的模型和系統(tǒng)優(yōu)化,該技術(shù)可賦能用戶在設(shè)備上的部署,從而實現(xiàn)零銷貨成本(zero-COGS,zero-cost-of-goods-sold)的目標(biāo)。本文編譯自微軟研究院博客 “Achieving Zero-COGS with Microsoft Editor Neural Grammar Checker”。

自上世紀70年代以來,語法檢查器(grammar checker)所依賴的技術(shù)已經(jīng)取得了顯著的發(fā)展,最初的第一代工具只是基于簡單的模式匹配(pattern matching)。1997年,一個標(biāo)志性的事件發(fā)生了,當(dāng)時 Microsoft Word 97 引入了一個基于成熟的自然語言處理系統(tǒng)(Heidorn, 2000)的語法檢查器,以支持更復(fù)雜的錯誤檢測和修改,并提高了準(zhǔn)確率。2020年,語法檢查器再次實現(xiàn)關(guān)鍵性突破,微軟推出了神經(jīng)語法檢查器(neural grammar checker),通過利用深度神經(jīng)網(wǎng)絡(luò)和全新的流暢度提升學(xué)習(xí)和推理機制,神經(jīng)語法檢查器在 CoNLL-2014 和 JFLEG 基準(zhǔn)數(shù)據(jù)集上均取得了 SOTA 結(jié)果[1,2]。2022年,微軟發(fā)布了高度優(yōu)化后的 Microsoft Editor 神經(jīng)語法檢查器,并將其集成到 Word Win32、Word Online、Outlook Online 和 Editor Browser Extension 中。

如今 Microsoft Editor 版本中的神經(jīng)語法檢查器模型主要采用了微軟亞洲研究院創(chuàng)新的 Aggressive Decoding 算法,而且借助高性能 ONNX Runtime(ORT)進行加速,可以使服務(wù)器端模型的推理速度提升200%,在不損失模型預(yù)測質(zhì)量的情況下,節(jié)省了三分之二的成本。此外,該神經(jīng)語法檢查器模型還使用微軟亞洲研究院前沿的客戶端 seq2seq 建模技術(shù) EdgeFormer,構(gòu)建了性能優(yōu)異的輕量級生成語言模型,結(jié)合部署過程中設(shè)備開銷感知的模型和系統(tǒng)優(yōu)化,該技術(shù)滿足交付要求,賦能用戶設(shè)備上的部署,最終實現(xiàn)了零銷貨成本(zero-COGS, zero-cost-of-goods-sold)的目標(biāo)。

不僅如此,Microsoft Editor 中的神經(jīng)語法檢查器模型在轉(zhuǎn)換為客戶端模型后,還有三個優(yōu)勢:

1. 提升隱私性。客戶端模型在用戶設(shè)備本地運行,無需向遠程服務(wù)器發(fā)送任何個人數(shù)據(jù)。

2. 增強可用性。客戶端模型可以離線運行,不受網(wǎng)絡(luò)連接、帶寬或服務(wù)器容量的限制。

3. 降低成本、提高可擴展性。客戶端模型運行在用戶設(shè)備上,省去了服務(wù)器執(zhí)行所需的所有計算,從而可以服務(wù)更多客戶。

另外,Microsoft Editor 還使用了 GPT-3.5 模型來生成高質(zhì)量的訓(xùn)練數(shù)據(jù)來識別和移除低質(zhì)量的訓(xùn)練示例,從而提升模型的性能。

Aggressive Decoding 算法具有巨大價值,它不僅適用于 Microsoft Editor 這樣對響應(yīng)時間、請求頻率和準(zhǔn)確度都有很高要求的應(yīng)用場景,還可以拓展到更多功能模塊,如文本重寫、文本摘要等。Aggressive Decoding 算法讓我們能夠在保證模型預(yù)測質(zhì)量不受損的同時更快地服務(wù)更多的客戶,降低服務(wù)成本并提高產(chǎn)品的競爭力和影響力, 這一創(chuàng)新技術(shù)也將在未來的客戶端模型研發(fā)中發(fā)揮重要作用。

陳思清

微軟首席應(yīng)用科學(xué)家

4cef8302-093b-11ee-962d-dac502259ad0.png

Aggressive Decoding:首個在seq2seq任務(wù)上無損加速的高效解碼算法

Microsoft Editor 中的人工智能語法檢查器主要基于 Transformer 模型,并采用了微軟亞洲研究院在語法糾錯方面的創(chuàng)新技術(shù)[1,2,3]。與大多數(shù) seq2seq 任務(wù)一樣,Microsoft Editor 此前的模型使用了自回歸解碼來進行高質(zhì)量的語法校正。然而,傳統(tǒng)的自回歸解碼效率很低,尤其是由于低計算并行性,導(dǎo)致模型無法充分利用現(xiàn)代計算設(shè)備(CPUGPU),從而使得模型服務(wù)成本過高,并且難以快速擴展到更多終端(Web/桌面)。

為了降低服務(wù)成本,微軟亞洲研究院的研究員們提出了創(chuàng)新的解碼算法 Aggressive Decoding[3]。與之前以犧牲預(yù)測質(zhì)量為代價來加速推理的方法不同,Aggressive Decoding 是首個應(yīng)用在 seq2seq 任務(wù)(如語法檢查和句子重寫)上達到無損加速的高效解碼算法。它直接將輸入作為目標(biāo)輸出,并且并行驗證它們,而不是像傳統(tǒng)的自回歸解碼那樣逐個順序解碼。因此,這一算法可以充分發(fā)揮現(xiàn)代計算設(shè)備(如帶有 GPU 的 PC)強大的并行計算能力,極大地提升解碼速度,能夠在不犧牲質(zhì)量的前提下以低廉的成本處理來自全球用戶(每年)數(shù)萬億次的請求。

4d13698e-093b-11ee-962d-dac502259ad0.gif

圖1:Aggressive Decoding 的工作原理

如圖1所示,如果模型在 Aggressive Decoding 過程中發(fā)現(xiàn)了一個分歧點,那么算法將舍棄分歧點后的所有預(yù)測,并使用傳統(tǒng)的逐個自回歸解碼重新解碼。如果在逐個重新解碼時發(fā)現(xiàn)了輸出和輸入之間存在唯一的后綴匹配(圖1中藍色點線突出顯示的建議),那算法會通過把輸入的匹配字符(token)之后的字符(圖1中用橙色虛線突出顯示的部分)復(fù)制到解碼器的輸入中并假設(shè)它們是相同的,從而切換回 Aggressive Decoding。通過這種方式,Aggressive Decoding 可以確保生成的字符與自回歸貪婪解碼一致,但解碼步驟大幅減少,顯著提高了解碼效率。

我們在做模型推理加速算法研究時最重要的考慮就是無損,因為在實際應(yīng)用中,模型生成質(zhì)量是排在第一位的,以損失質(zhì)量來換取更小的開銷會嚴重影響用戶體驗。為此,我們提出了 Aggressive Decoding 算法,它利用了語法糾錯任務(wù)的一個重要特性,即輸入與輸出高度相似,將整個計算過程(pipeline)高度并行化,充分利用 GPU 在并行計算上的優(yōu)勢,在生成質(zhì)量無損的前提下實現(xiàn)大幅加速的效果。

葛濤

微軟亞洲研究院高級研究員

離線+在線評估結(jié)果:Aggressive Decoding可顯著降低COGS

離線評估:研究員們在語法校正和其他文本重寫任務(wù)如文本簡化中,采用了一個6+6標(biāo)準(zhǔn)的 Transformer 及深度編碼器和淺層解碼器的 Transformer 來測試 Aggressive Decoding。結(jié)果表明 Aggressive Decoding 可以在沒有質(zhì)量損失的情況下大幅提升速度。

4d34b99a-093b-11ee-962d-dac502259ad0.jpg

表1:6+6標(biāo)準(zhǔn) Transformer 測試結(jié)果

4d491a34-093b-11ee-962d-dac502259ad0.jpg

表2:深度編碼器和淺層解碼器的 Transformer 的測試結(jié)果

4d65df0c-093b-11ee-962d-dac502259ad0.png

圖2:Aggressive Decoding 算法在更強大的并行計算設(shè)備上的運行效果更好

在線評估:研究員們還在 Marian 服務(wù)器模型和使用 ONNX Runtime 的 Aggressive Decoding 的同等服務(wù)器模型之間進行了 A/B 實驗。結(jié)果如圖3所示,與在 CPU 中使用傳統(tǒng)自回歸解碼的 Marian 運行時相比,后者在 p50 延遲上有超過2倍的提升,在 p95 和 p99 延遲上有超過3倍的提升。此外,與之前的自回歸解碼相比,后者提供了更高的效率穩(wěn)定性。這種顯著的推理時間加速,將服務(wù)器端的 COGS 降低了三分之二。

4d8f7b6e-093b-11ee-962d-dac502259ad0.jpg

圖3:所有區(qū)域 Marian 和 ONNX 語法檢查器延遲對比

離線和在線評估都驗證了 Aggressive Decoding 能夠在不降低模型預(yù)測質(zhì)量的情況下顯著減少 COGS?;诖耍芯繂T們將 Aggressive Decoding 也應(yīng)用到了更通用的 seq2seq 任務(wù)中[4]。Aggressive Decoding 的高效率和無損質(zhì)量特性,或?qū)⑹蛊涑蔀?seq2seq 任務(wù)高效解碼的標(biāo)準(zhǔn)范式,在降低 seq2seq 模型部署成本中起到重要作用。

4cef8302-093b-11ee-962d-dac502259ad0.png

ONNX Runtime加速語法檢查器

ONNX Runtime 是微軟開發(fā)的高性能引擎,它可在各種硬件平臺上加速人工智能模型。許多基于機器學(xué)習(xí)的微軟產(chǎn)品都利用 ONNX Runtime 來加速推理性能。為了進一步降低推理延遲,ORT 團隊的研發(fā)人員們首先將 PyTorch 版的 Aggressive Decoding 語法檢查器,通過 PyTorch-ONNX 導(dǎo)出器導(dǎo)出為 ONNX 格式,再使用 ONNX Runtime 進行推理。ONNX Runtime 支持 Transformer 的特定優(yōu)化以及 INT8 量化,這不僅實現(xiàn)了 Transformer 在 CPU 上的性能加速,同時還可以縮減模型大小。該端到端解決方案使用了多項前沿技術(shù),以實現(xiàn)高效地運行這個先進的語法檢查器模型。

ONNX Runtime 是一個具有很好延展性的跨硬件模型加速引擎,可以支持不同的應(yīng)用場景。為了最高效運行 Aggressive Decoding 這一創(chuàng)新解碼算法,我們對 PyTorch 導(dǎo)出器和 ONNX Runtime 做了一系列提升,最終讓這一先進的語法檢查器模型以最高性能運行。

寧瓊

微軟首席產(chǎn)品主管

PyTorch 提供了一個內(nèi)置函數(shù),可以輕松地將 PyTorch 模型導(dǎo)出為 ONNX 格式。為了支持語法檢查模型的獨特架構(gòu),研發(fā)人員們在導(dǎo)出器里實現(xiàn)了復(fù)雜嵌套控制流導(dǎo)出到 ONNX,并擴展了官方 ONNX 規(guī)范來支持序列數(shù)據(jù)類型和運算符,以表示更復(fù)雜的場景,例如自回歸搜索算法。這樣就不需要單獨導(dǎo)出模型編碼器和解碼器組件,再使用序列生成邏輯將它們串聯(lián)在一起。由于 PyTorch-ONNX 導(dǎo)出器和 ONNX Runtime 支持序列數(shù)據(jù)類型和運算符,所以原模型可以導(dǎo)出成單一的一個包括編碼器、解碼器和序列生成的 ONNX 模型,這既帶來了高效的計算,又簡化了推理邏輯。此外,PyTorch ONNX 導(dǎo)出器的 shape type inference 組件也得到了增強,從而可以得到符合更嚴格的 ONNX shape type 約束下的有效的 ONNX 模型。

在語法檢查器模型中引入的 Aggressive Decoding 算法最初是在 Fairseq 中實現(xiàn)的。為了使其與 ONNX 兼容以便于導(dǎo)出,研發(fā)人員們在 HuggingFace 中重新實現(xiàn)了 Aggressive Decoding 算法。在深入實施時,研發(fā)人員們發(fā)現(xiàn) ONNX 標(biāo)準(zhǔn)運算符集不直接支持某些組件(例如分叉檢測器)。目前有兩種方法可以將不支持的運算符導(dǎo)出到 ONNX 并在 ONNX Runtime 中運行:1. 利用 ONNX 已有的基本運算符組建一個具有等效語義的圖;2. 在 ONNX Runtime 中實現(xiàn)一個更高效的自定義運算符。ONNX Runtime 自定義運算符功能允許用戶實現(xiàn)自己的運算符,以便靈活地在 ONNX Runtime 中運行。用戶可以權(quán)衡實現(xiàn)成本和推理性能來選擇合適的方法??紤]到本模型組件的復(fù)雜性,標(biāo)準(zhǔn) ONNX 運算符的組合可能會帶來性能瓶頸。因此,研發(fā)人員們選擇在 ONNX Runtime 中實現(xiàn)自定義運算符。

ONNX Runtime 支持 Transformer 的優(yōu)化和量化,這在 CPU 和 GPU 上都能提升性能。此外,ONNX Runtime 針對語法檢查器模型進一步增強了編碼器 attention 以及解碼器 reshape 圖算融合。支持該模型的另一大挑戰(zhàn)是多個模型子圖,而 ONNX Runtime Transformer 優(yōu)化器和量化工具對此也實現(xiàn)了子圖融合。ONNX Runtime 量化壓縮已被應(yīng)用于整個模型,進一步改善了吞吐量和延遲。

4cef8302-093b-11ee-962d-dac502259ad0.png

GPT-3.5助力模型實現(xiàn)質(zhì)的飛躍

為了進一步提高生產(chǎn)中模型的精度和召回率,研究員們使用了強大的 GPT-3.5 作為教師模型。具體而言,GPT-3.5 模型通過以下兩種方式來幫助提高結(jié)果:

訓(xùn)練數(shù)據(jù)增強:通過對 GPT-3.5 模型進行微調(diào),使其為大量未標(biāo)注的文本生成標(biāo)簽。所獲得的高質(zhì)量標(biāo)注,可以用作增強訓(xùn)練數(shù)據(jù)來提高模型性能。

訓(xùn)練數(shù)據(jù)清理:利用 GPT-3.5 強大的零樣本和少樣本學(xué)習(xí)能力來區(qū)分高質(zhì)量和低質(zhì)量的訓(xùn)練示例。然后,通過 GPT-3.5 模型重新對已識別的低質(zhì)量示例生成標(biāo)注,從而產(chǎn)生更干凈、更高質(zhì)量的訓(xùn)練集,直接增強模型性能。

4cef8302-093b-11ee-962d-dac502259ad0.png

EdgeFormer:用于客戶端seq2seq建模的成本效益參數(shù)

近年來,客戶端設(shè)備的計算能力大大增加,使得利用深度神經(jīng)網(wǎng)絡(luò)來實現(xiàn)最終的零銷貨成本成為可能。然而,在這些設(shè)備上運行生成式語言模型仍然是一個很大的挑戰(zhàn),因為這些模型的內(nèi)存效率必須受到嚴格的控制。在涉及生成式語言模型時,自然語言理解中用于神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)壓縮方法往往不適用。

4dfa91b0-093b-11ee-962d-dac502259ad0.png

圖4:使用深度神經(jīng)網(wǎng)絡(luò)來實現(xiàn)零銷貨成本

(zero-COGS)

運行在客戶端的語法模型應(yīng)該具有很高的效率(例如延遲在100ms內(nèi)),這個問題已經(jīng)由 Aggressive Decoding 解決了。此外,客戶端模型還必須具有高效的內(nèi)存(例如占用的空間在50MB以內(nèi)),這是強大的 Transformer 模型(通常超過5000萬個參數(shù))在客戶端設(shè)備上運行的主要瓶頸。

為了應(yīng)對這一挑戰(zhàn),微軟亞洲研究院的研究員們引入了前沿的客戶端 seq2seq 建模技術(shù)EdgeFormer[6],用于構(gòu)建性能優(yōu)異的輕量級生成語言模型,讓模型可以在用戶的計算機上輕松運行。

4e1093ca-093b-11ee-962d-dac502259ad0.png

圖5:DNN 語法:服務(wù)器模型 VS 客戶端模型

EdgeFormer 有兩個原則,主要是為了參數(shù)化的成本效益:

有利于編碼器的參數(shù)化

負載均衡參數(shù)化

4e345aa8-093b-11ee-962d-dac502259ad0.png

圖6:有利于編碼器的參數(shù)化

4e5c40fe-093b-11ee-962d-dac502259ad0.png

圖7:負載均衡參數(shù)化

遵循上述具有成本效益參數(shù)化的原則而設(shè)計的 EdgeFormer,使得每個參數(shù)都能發(fā)揮最大潛力,即使客戶端設(shè)備存在嚴格的計算和內(nèi)存限制,也能獲得有競爭力的結(jié)果。

在 EdgeFormer 的基礎(chǔ)上,研究員們進一步提出了 EdgeLM——EdgeFormer 的預(yù)訓(xùn)練版本,這是第一個在設(shè)備上公開可用的預(yù)訓(xùn)練 seq2seq 模型,可以讓 seq2seq 任務(wù)的微調(diào)變得更容易,進而獲得好的結(jié)果。EdgeLM 作為語法客戶端模型的基礎(chǔ)模型,實現(xiàn)了零銷貨成本,與服務(wù)器端模型相比,該模型以最小的質(zhì)量損失實現(xiàn)了超過5倍的模型壓縮。

微軟亞洲研究院異構(gòu)計算組致力于以全棧協(xié)同設(shè)計的思想,構(gòu)建深度學(xué)習(xí)模型到實際設(shè)備部署之間的橋梁。以 Microsoft Editor 為例,我們與算法、產(chǎn)品和 AI 框架團隊深度合作,通過系統(tǒng)和硬件感知的模型優(yōu)化和壓縮,以及針對不同硬件的推理系統(tǒng)和運算符優(yōu)化等,使模型開銷能夠滿足實際設(shè)備運行的要求,為未來將更多微軟產(chǎn)品的 AI 服務(wù)部署到設(shè)備端鋪平了道路。

曹婷

微軟亞洲研究院高級研究員

4cef8302-093b-11ee-962d-dac502259ad0.png

降低推理成本,賦能客戶端部署

客戶端設(shè)備的模型部署對硬件使用有嚴格的要求,如內(nèi)存和磁盤使用量等,以避免干擾其他的應(yīng)用程序。由于 ONNX Runtime 是一個輕量級的引擎并提供全面客戶端推理解決方案(如 ONNX Runtime 量化和 ONNX Runtime 擴展),所以其在設(shè)備部署方面也具有明顯的優(yōu)勢。此外,為了在保持服務(wù)質(zhì)量的前提下滿足交付要求,微軟亞洲研究院引入了一系列優(yōu)化技術(shù),包括系統(tǒng)感知的模型優(yōu)化、模型元數(shù)據(jù)簡化、延遲參數(shù)加載以及定制量化策略?;?EdgeFormer 建模,這些系統(tǒng)優(yōu)化可以進一步將內(nèi)存成本降低2.7倍,而不會降低模型性能,最終賦能模型在客戶端設(shè)備的部署。

系統(tǒng)感知的模型優(yōu)化。由于模型在推理系統(tǒng)中被表示為數(shù)據(jù)流圖,因此該模型的主要內(nèi)存成本來自于生成的許多子圖。如圖8所示,PyTorch 代碼中的每個分支被映射為一個子圖。所以,需要通過優(yōu)化模型實現(xiàn)來減少分支指令的使用率。這其中尤為重要的是,因為波束搜索包含更多的分支指令,研究員們利用了貪婪搜索作為解碼器搜索算法,從而將內(nèi)存成本降低了38%。

4e97405a-093b-11ee-962d-dac502259ad0.png

圖8:PyTorch 模型和 ONNX 模型圖的映射

模型元數(shù)據(jù)簡化。如圖8所示,模型包含大量消耗內(nèi)存的元數(shù)據(jù),如節(jié)點名稱和類型、輸入和輸出以及參數(shù)等。為了降低成本,研究員們需要簡化元數(shù)據(jù),只保留推理所需的基本信息,例如,節(jié)點名稱從一個長字符串簡化為一個索引。此外,研究員們也優(yōu)化了 ONNX Runtime 模型圖的實現(xiàn),對所有子圖只保留一個元數(shù)據(jù)副本,而不是在每次生成子圖時復(fù)制所有可用的元數(shù)據(jù)。

延遲模型權(quán)重加載。當(dāng)前的模型文件包含模型圖和權(quán)重,并在模型初始化期間將它們一起加載到內(nèi)存中。然而,這會增加內(nèi)存使用量,如圖9所示,這是因為在模型圖解析和轉(zhuǎn)換過程中會重復(fù)復(fù)制權(quán)重。為了避免這種情況,研究員們提出將模型圖和權(quán)重分別保存成獨立的文件,并將該方法在 ONNX Runtime 加以實現(xiàn)。通過該方法,在初始化期間,只有模型圖被加載到內(nèi)存中進行實際解析和轉(zhuǎn)換,而權(quán)重仍然留在磁盤上,通過文件映射只把權(quán)重文件指針(pointer)保留在內(nèi)存中,實際的權(quán)重到內(nèi)存的加載將被推遲到模型推理之時。該技術(shù)可將峰值內(nèi)存成本降低50%。

4ed15362-093b-11ee-962d-dac502259ad0.png

圖9:對比現(xiàn)有的模型圖和權(quán)重同時加載(虛線上),以及模型初始化期間通過文件映射實現(xiàn)的延遲權(quán)重加載(虛線下)

ONNX Runtime 量化和擴展。量化是眾所周知的模型壓縮技術(shù),它在犧牲模型精度的同時,帶來了性能加速和模型縮減。ONNXRuntime 量化提供了多種微調(diào)選擇,使其能夠應(yīng)用定制的量化策略。研發(fā)人員們?yōu)?EdgeFormer 模型定制了最優(yōu)量化策略,以減少量化對精度的影響,具體包括訓(xùn)練后、動態(tài)和 UINT8 量化,以及 per-channel 和既有所有運算符量化策略。Onnxruntime-extensions 提供了一組 ONNX Runtime 定制運算符,以支持視覺、文本和自然語言處理模型的常見預(yù)處理和后處理運算符。利用這一工具,研發(fā)人員們將模型的預(yù)處理和后處理,例如標(biāo)記化(tokenization)、字符串操作等,都集成到一個獨立的 ONNX 模型文件中,從而提高性能、簡化部署、減少內(nèi)存使用率并提供更好的可移植性。

這些創(chuàng)新成果只是微軟亞洲研究院為降低生成式語言模型的銷貨成本而做出的長期努力中的第一個里程碑。這些方法并不局限于加速神經(jīng)語法檢查器,它可以很容易地應(yīng)用在抽象摘要、翻譯或搜索引擎等廣泛的場景中,從而加速降低大語言模型的銷貨成本[5,8]。在人工智能的未來發(fā)展中,這些創(chuàng)新對微軟乃至對整個行業(yè)都將至關(guān)重要。

相關(guān)鏈接:

ONNX Runtime

https://onnxruntime.ai

EdgeFormer

https://www.microsoft.com/en-us/research/publication/edgeformer-a-parameter-efficient-transformer-for-on-device-seq2seq-generation/

EdgeLM

https://github.com/microsoft/unilm/tree/master/edgelm

ONNX Runtime 量化

https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html

Onnxruntime-extensions

https://github.com/microsoft/onnxruntime-extensions

參考文獻:

[1] Tao Ge, Furu Wei, Ming Zhou: Fluency Boost Learning and Inference for Neural Grammatical Error Correction. In ACL 2018.

[2] Tao Ge, Furu Wei, Ming Zhou: Reaching Human-level Performance in Automatic Grammatical Error Correction: An Empirical Study.

https://arxiv.org/abs/1807.01270

[3] Xin Sun, Tao Ge, Shuming Ma, Jingjing Li, Furu Wei, Houfeng Wang: A Unified Strategy for Multilingual Grammatical Error Correction with Pre-trained Cross-lingual Language Model. In IJCAI 2022.

[4] Xin Sun, Tao Ge, Furu Wei, Houfeng Wang: Instantaneous Grammatical Error Correction with Shallow Aggressive Decoding. In ACL 2021.

[5] Tao Ge, Heming Xia, Xin Sun, Si-Qing Chen, Furu Wei: Lossless Acceleration for Seq2seq Generation with Aggressive Decoding.

https://arxiv.org/pdf/2205.10350.pdf

[6] Tao Ge, Si-Qing Chen, Furu Wei: EdgeFormer: A Parameter-efficient Transformer for On-device Seq2seq Generation. In EMNLP 2022.

[7] Heidorn, George. “Intelligent Writing Assistance.” Handbook of Natural Language Processing. Robert Dale, Hermann L. Moisl, and H. L. Somers, editors. New York: Marcel Dekker, 2000: 181-207.

[8] Nan Yang, Tao Ge, Liang Wang, Binxing Jiao, Daxin Jiang, Linjun Yang, Rangan Majumder, Furu Wei: Inference with Reference: Lossless Acceleration of Large Language Models.

https://arxiv.org/abs/2304.04487

關(guān)注微軟科技視頻

了解更多科技前沿資訊


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6541

    瀏覽量

    103826

原文標(biāo)題:Microsoft Editor是怎樣實現(xiàn)零COGS的?

文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    如何打造碳園區(qū),盾華電子助力“雙碳”目標(biāo)實現(xiàn) 碳公路 碳智慧校園

    如何打造碳園區(qū),盾華電子助力“雙碳”目標(biāo)實現(xiàn) 碳公路 碳智慧校園
    的頭像 發(fā)表于 10-08 15:52 ?109次閱讀
    如何打造<b class='flag-5'>零</b>碳園區(qū),盾華電子助力“雙碳”目標(biāo)<b class='flag-5'>實現(xiàn)</b>  <b class='flag-5'>零</b>碳公路 <b class='flag-5'>零</b>碳智慧校園

    Splashtop 加入 Microsoft 智能安全協(xié)會

    2024年9月25日美國加利福尼亞州庫比蒂諾SplashtopInc.宣布已正式加入Microsoft智能安全協(xié)會(MISA)。MISA由獨立軟件供應(yīng)商(ISV)和托管安全服務(wù)提供商(MISA)組成
    的頭像 發(fā)表于 09-28 08:08 ?121次閱讀
    Splashtop 加入 <b class='flag-5'>Microsoft</b> 智能安全協(xié)會

    請問多級射頻放大電路中怎么將信號調(diào)?

    實現(xiàn)調(diào),并且不引入太多的干擾?小弟之前用電位器加跟隨調(diào)節(jié)同向放大的OPA847,調(diào)可以實現(xiàn),但輸出引入了較多噪聲,并且信號在50MHZ的時候開始衰減,并且通帶不平坦,與之前做的O
    發(fā)表于 09-09 08:07

    怎樣消除線和地線電壓

    消除線和地線電壓是電力系統(tǒng)和電子設(shè)備設(shè)計中的一個重要問題。 線和地線電壓的產(chǎn)生原因 1.1 線電壓的產(chǎn)生原因 線電壓是指在三相四線制供電系統(tǒng)中,
    的頭像 發(fā)表于 08-25 11:02 ?932次閱讀

    Microsoft Dynamics 365 Contact Center聯(lián)絡(luò)中心上線

    Microsoft Dynamics 365 Contact Center 聯(lián)絡(luò)中心(國際版)全面上線,這標(biāo)志著微軟在客戶服務(wù)現(xiàn)代化道路上的又一重大里程碑。Microsoft Dynamics
    的頭像 發(fā)表于 08-20 09:57 ?374次閱讀

    異步置和同步置的區(qū)別在哪里

    異步置和同步置是數(shù)字電路設(shè)計中兩種不同的置方法。它們在實現(xiàn)方式、性能和應(yīng)用場景上有所不同。 實現(xiàn)方式: 異步置
    的頭像 發(fā)表于 07-23 11:09 ?686次閱讀

    Microsoft AI 推進行業(yè)企業(yè)智慧化創(chuàng)新

    2024年6月17日,北京—— 近日,微軟在北京舉辦以“共創(chuàng)AI創(chuàng)新,智啟無限可能”為主題的Microsoft AI Day活動,集中展示了在生成式智能技術(shù)加速發(fā)展普及的過程中,微軟取得的最新技術(shù)
    的頭像 發(fā)表于 06-17 16:59 ?925次閱讀

    VScode中點擊SDK Configuration Editor按鈕報錯如何解決?

    我使用 VSCode 開發(fā) ESP32S3 整體都是正常的,但是點擊左下角齒輪按鈕(SDK Configuration Editor)提示錯誤,如下: Code: Select all [SDK
    發(fā)表于 06-06 06:40

    Microsoft Start Networks中國內(nèi)容生態(tài)伙伴峰會成功舉辦

    2024年5月22日,蘇州——微軟 Microsoft Start Networks 中國內(nèi)容生態(tài)伙伴峰會( Microsoft Start Partner Summit )在微軟蘇州新園區(qū)成功舉辦。
    的頭像 發(fā)表于 05-23 09:21 ?340次閱讀

    Microsoft修復(fù)Outlook客戶端加密郵件故障

    此問題已持續(xù)數(shù)月,大量 Microsoft 365 的用戶通過微軟社區(qū)進行了反饋。主要癥狀為用戶使用經(jīng)典版 Outlook 時,無法正確回復(fù)加密郵件。
    的頭像 發(fā)表于 05-17 10:23 ?413次閱讀

    關(guān)于CANdb++ Editor編寫DBC文件時Factor的設(shè)置問題求解

    求助CANdb++ Editor編寫DBC文件時 Factor設(shè)置的問題: 編輯DBC文件時,當(dāng)我設(shè)置Signal的Factor時,如果設(shè)置了0.0001,DBC就正常解析沒問題。但如果設(shè)置了0.000001,DBC文件就忽略了這個值的解析。 是否Factor這個值設(shè)置的時候有最大值最小值?
    發(fā)表于 04-12 07:03

    Edge瀏覽器關(guān)閉Microsoft Rewards擴展原因揭曉

    據(jù)報道,近期德國等地的Microsoft Edge瀏覽器用戶發(fā)現(xiàn),安裝或啟動Microsoft Rewards擴展后,會出現(xiàn)“右上角擴展被Edge瀏覽器禁用以保障您的瀏覽器安全”的提醒窗口。
    的頭像 發(fā)表于 04-10 09:55 ?675次閱讀

    Quantinuum 與 Microsoft 合作進行可靠邏輯量子比特的突破性演示,邁入可靠量子計算的新階段

    ??/美通社/ -- 全球最大的綜合量子計算公司 Quantinuum 與 Microsoft 攜手,在實現(xiàn)容錯量子計算方面取得突破,展示了具有主動綜合征提取的最可靠邏輯量子比特,這是此前被認為還需要數(shù)年
    的頭像 發(fā)表于 04-07 16:50 ?343次閱讀

    SPWM調(diào)制方式是怎樣實現(xiàn)變壓功能的?又是怎樣實現(xiàn)變頻功能的?

    SPWM調(diào)制方式是怎樣實現(xiàn)變壓功能的?又是怎樣實現(xiàn)變頻功能的? SPWM是一種常見的調(diào)制方式,它通過調(diào)節(jié)脈沖的寬度來控制輸出波形的幅度和頻率,因此可以
    的頭像 發(fā)表于 02-06 11:09 ?1330次閱讀

    什么是保護接地與保護接?家用電器怎樣才能不觸電?

    什么是保護接地與保護接?家用電器怎樣才能不觸電? 保護接地和保護接是兩種不同的電氣安全保護措施。在家庭中使用電器時,遵守正確的安全操作規(guī)范是很重要的,以避免發(fā)生觸電事故。本文將詳細介紹保護接地
    的頭像 發(fā)表于 12-18 16:58 ?1318次閱讀