0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文詳解百度、谷歌、京東、騰訊在分布式網(wǎng)絡(luò)訓(xùn)練下的聯(lián)邦學(xué)習(xí)解決方案

GPU視覺(jué)識(shí)別 ? 來(lái)源:GPU視覺(jué)識(shí)別 ? 作者:GPU視覺(jué)識(shí)別 ? 2022-10-13 14:19 ? 次閱讀

隨著機(jī)器學(xué)習(xí)、隱私計(jì)算、高性能計(jì)算、深度學(xué)習(xí)訓(xùn)練、差分隱私的快速發(fā)展,如今的人工智能仍然面臨兩大挑戰(zhàn)。一是在大多數(shù)行業(yè)中,數(shù)據(jù)以孤島的形式存在;另一個(gè)是加強(qiáng)數(shù)據(jù)隱私和安全。為這些挑戰(zhàn)提出了一個(gè)可能的解決方案:安全聯(lián)邦學(xué)習(xí)。其中包括橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)。

聯(lián)邦學(xué)習(xí)(Federated Learning)是一種分布式機(jī)器學(xué)習(xí)技術(shù),其核心思想是通過(guò)在多個(gè)擁有本地?cái)?shù)據(jù)的數(shù)據(jù)源之間進(jìn)行分布式模型訓(xùn)練,在不需要交換本地個(gè)體或樣本數(shù)據(jù)的前提下,僅通過(guò)交換模型參數(shù)或中間結(jié)果的方式,構(gòu)建基于虛擬融合數(shù)據(jù)下的全局模型,從而實(shí)現(xiàn)數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)共享計(jì)算的平衡,即“數(shù)據(jù)可用不可見(jiàn)”、“數(shù)據(jù)不動(dòng)模型動(dòng)”的應(yīng)用新范式。許多客戶端(例如移動(dòng)設(shè)備或整個(gè)組織)在中央服務(wù)器(例如服務(wù)提供商)的編排下協(xié)同訓(xùn)練一個(gè)模型,同時(shí)保持訓(xùn)練數(shù)據(jù)的分散。聯(lián)邦學(xué)習(xí)體現(xiàn)了集中數(shù)據(jù)收集和最小化的原則,可以減輕許多由傳統(tǒng)的、集中的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)方法造成的系統(tǒng)性隱私風(fēng)險(xiǎn)和成本。

聯(lián)邦學(xué)習(xí)涉及在大規(guī)模分布式網(wǎng)絡(luò)中訓(xùn)練機(jī)器學(xué)習(xí)模型。雖然聯(lián)合平均(fedavg)是在此設(shè)置中訓(xùn)練非凸模型的主要優(yōu)化方法,但在跨統(tǒng)計(jì)異構(gòu)設(shè)備(即每個(gè)設(shè)備以非相同的時(shí)尚。眾所周知的 fedprox 框架來(lái)解決統(tǒng)計(jì)異質(zhì)性,它包含了 fedavg 作為一個(gè)特例。通過(guò)一種新穎的設(shè)備相異性假設(shè)為 fedprox 提供收斂保證,能夠表征網(wǎng)絡(luò)中的異質(zhì)性,最后,對(duì)一套聯(lián)合數(shù)據(jù)集進(jìn)行了詳細(xì)的實(shí)證評(píng)估,證明了廣義 fedprox 框架相對(duì)于 fedavg 在異構(gòu)網(wǎng)絡(luò)中學(xué)習(xí)的魯棒性和穩(wěn)定性有所提高。

聯(lián)邦學(xué)習(xí)科研論文成果現(xiàn)狀

一、論文發(fā)表量復(fù)合年增長(zhǎng)率為 40%

基于 AMiner 系統(tǒng),通過(guò)關(guān)鍵詞組在標(biāo)題和摘要中檢索 2016 年至 2021 年論文數(shù)據(jù)。結(jié)果顯示,研究時(shí)段內(nèi)聯(lián)邦學(xué)習(xí)相關(guān)論文共計(jì) 4576 篇, 自 2016 年被提出以來(lái),研究論文數(shù)量逐年增多, 到 2021 年的復(fù)合年增長(zhǎng)率為 40.78%,相關(guān)論文趨勢(shì)如下圖所示。

poYBAGNHrfuANuscAAF5R6l8wPo217.png

聯(lián)邦學(xué)習(xí)研究論文趨勢(shì)(2016-2021 年)

二、論文發(fā)布量以中美兩國(guó)為引領(lǐng)

根據(jù)論文作者所在機(jī)構(gòu)所屬國(guó)家進(jìn)行排序分析,發(fā)現(xiàn)近年來(lái)聯(lián)邦學(xué)習(xí)論文發(fā)布量 TOP 10 國(guó)家依次是中國(guó)、美國(guó)、英國(guó)、俄羅斯、德國(guó)、印度、澳大利亞、加拿大、日本和法國(guó)。相關(guān)論文量較突出的國(guó)家是中國(guó)(1245 篇)和美國(guó)(1175 篇)詳細(xì)信息如下圖所示。

pYYBAGNHrfuAZm1YAAIx7CZxhXk504.png

聯(lián)邦學(xué)習(xí)論文發(fā)表量 TOP 10 國(guó)家(2016-2021 年)

三、研究熱點(diǎn)涵蓋應(yīng)用、系統(tǒng)和模型設(shè)計(jì)、安全隱私三個(gè)領(lǐng)域

1、總體研究熱點(diǎn)

總體來(lái)看,基于 AMiner 系統(tǒng)的論文熱詞分析,發(fā)現(xiàn) 2016-2021 年聯(lián)邦學(xué)習(xí)領(lǐng)域的研究熱點(diǎn) TOP 10 按熱度遞減依次包括:Internet of Things(物聯(lián)網(wǎng))、blockchain(區(qū)塊鏈)、edge computing ( 邊緣計(jì)算 )、optimization (優(yōu)化)、deep network(深度網(wǎng)絡(luò))、aggregation(聚合)、differential privacy(差分隱私)、healthcare(醫(yī)療保?。?、Multiparty Computation(多方計(jì)算)、reinforcement learning(強(qiáng)化學(xué)習(xí))等,如圖所示??梢?jiàn),在研究時(shí)段內(nèi),聯(lián)邦學(xué)習(xí)的主要研究熱點(diǎn)是關(guān)于應(yīng)用及相關(guān)算法模型。

poYBAGNHrfyAeByDAAXbIiKrhgo112.png

2016-2021 年聯(lián)邦學(xué)習(xí)領(lǐng)域研究熱點(diǎn)詞云圖

2、主題熱點(diǎn)趨勢(shì)

通過(guò) TF-IDF 算法對(duì)所研究時(shí)段內(nèi)每一年的聯(lián)邦學(xué)習(xí)主題相關(guān)論文數(shù)量進(jìn)行計(jì)算,獲取論文數(shù)量 TOP 30 的熱點(diǎn)詞,然后聚合成聯(lián)邦學(xué)習(xí)的應(yīng)用 (application)、系統(tǒng)和模型設(shè)計(jì)(system and model design ) 和安全隱私( secure and privacy)三個(gè)主題領(lǐng)域的研究熱點(diǎn)集。這三個(gè)細(xì)分主題的研究趨勢(shì)呈現(xiàn)出如下特征。

在應(yīng)用研究領(lǐng)域,聯(lián)邦學(xué)習(xí)的研究熱點(diǎn)按照總熱度由高到低依次包括物聯(lián)網(wǎng)(Internet of things)、邊緣計(jì)算( edge computing )、 醫(yī)療保健 (healthcare)、車輛交互(vehicle)、無(wú)線通信( wireless communication )、 數(shù)據(jù)庫(kù) (database)、以及推薦recommendation),詳細(xì)信息如圖所示。

pYYBAGNHrfyAVwccAAJpuOVfCUY271.png

聯(lián)邦學(xué)習(xí)在應(yīng)用方面的研究熱點(diǎn)趨勢(shì)(2016-2021 年)

關(guān)于聯(lián)邦學(xué)習(xí)在系統(tǒng)和模型設(shè)計(jì)方面的研究熱點(diǎn)趨勢(shì)情況如圖所示。由圖可見(jiàn),截止目前,在系統(tǒng)和模型設(shè)計(jì)方面研究熱點(diǎn)依照熱度遞減分別是優(yōu)化(optimization)、聚合(aggregation)、魯棒性( robustness ) 、 通信效率 ( communication efficiency )、異構(gòu) (heterogeneity)、公平性(fairness)、資源效率 (resource efficiency)和激勵(lì)機(jī)制(incentive mechanism)。優(yōu)化主題曾經(jīng)在 2016 和 2017 年研究熱度最高,經(jīng)過(guò) 2018-2020 年的熱度相對(duì)弱化后,在 2021 年再度成為最熱門(mén)的研究主題。

2017 年,資源效率和公平性相關(guān)主題研究開(kāi)始嶄露頭角

2018 年,通信效率相關(guān)研究占據(jù)熱度榜第一

2019 年,熱度最高的是與安全聚合相關(guān)研究, 同時(shí),對(duì)聯(lián)邦學(xué)習(xí)(數(shù)據(jù)和系統(tǒng))異構(gòu)的研究大幅 提升

2020 年,與異構(gòu)相關(guān)研究上升為最熱門(mén),和激勵(lì)機(jī)制相關(guān)的研究數(shù)量大幅提升

2021 年,與優(yōu)化和聚合相關(guān)主題研究上升幅度顯著。

從熱度持續(xù)性看,聚合、優(yōu)化、魯棒性、激勵(lì)機(jī)制和公平性的相關(guān)研究在研究時(shí)段內(nèi)一直保持著不同程度的熱度上揚(yáng)

poYBAGNHrf2AOLX7AAJq377WoiI653.png

聯(lián)邦學(xué)習(xí)系統(tǒng)和模型設(shè)計(jì)方面的研究熱點(diǎn)趨勢(shì)(2016-2021 年)

在安全隱私方面,聯(lián)邦學(xué)習(xí)研究主題依據(jù)總熱度遞減依次包括區(qū)塊鏈(blockchain)、差分隱私 (differential privacy)、 安全多方計(jì)算 (multiparty computation)、 惡意攻擊 (malicious attack)、 隱私泄露 (privacy leakage)、 同態(tài)加密 (homomorphic encryption)、網(wǎng)絡(luò)安全(cyber security)以及 容錯(cuò)(fault tolerance),具體熱度趨勢(shì)情況如圖所示。在研究時(shí)段內(nèi),區(qū)塊鏈、差分隱私、多方計(jì)算、惡意攻擊、隱私泄露和同態(tài)加密的研究熱度總體持續(xù)逐年上漲。

2016 年,研究最熱的是對(duì)聯(lián)邦學(xué)習(xí)中惡意攻擊的研究

2017 年,研究最熱的是差分隱私

2018 年,研究最熱的是安全多方計(jì)算所涉及數(shù)據(jù)安全和隱私保護(hù)技術(shù),與區(qū)塊鏈結(jié)合的相關(guān)研究雖然于 2018 年出現(xiàn)但快速成為 2019 年至 2021 年最熱的研究主題

pYYBAGNHrf2AG4whAAKGqhnbYXw075.png

聯(lián)邦學(xué)習(xí)安全隱私方面的研究熱點(diǎn)趨勢(shì)(2016-2021 年)

四、高被引論文分析

根據(jù)聯(lián)邦學(xué)習(xí)領(lǐng)域論文被引用量進(jìn)行排序,選取了排名前 3%的論文作為具有重大學(xué)術(shù)影響的高被引論文進(jìn)行相關(guān)的作者及其所隸屬機(jī)構(gòu)與國(guó)家等特征分析。數(shù)據(jù)顯示,本年度聯(lián)邦學(xué)習(xí)領(lǐng)域高被引論文的最低被引次數(shù)是 120 次,是去年高被引論文最低被引次數(shù)的 3 倍,反映出該領(lǐng)域論文的整體學(xué)術(shù)影響力大幅提升。

1、六成以上高被引論文來(lái)自中美兩國(guó)

根據(jù)論文第一作者所在機(jī)構(gòu)的所屬國(guó)家進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)聯(lián)邦學(xué)習(xí)的近年來(lái)高被引論文發(fā)表主要是來(lái)自于美國(guó)和中國(guó)。其中,美國(guó)的高被引論文占 39.2%,雖然較上期下降了 1 個(gè)百分點(diǎn),但仍為全球最多;中國(guó)的高被引論文占 26.4%,雖仍居于全球第二位,但數(shù)量比上期增加了近 10 個(gè)百分 點(diǎn);德國(guó)、英國(guó)、澳大利亞與新加坡也擁有一定數(shù)量的高被引論文;其余國(guó)家所發(fā)表高被引論文的占比均低于 4%,詳細(xì)信息如圖所示。

poYBAGNHrf6AExZpAAFPPcCvE9U143.png

聯(lián)邦學(xué)習(xí)高被論文國(guó)家分布(2016-2021 年)

2、美國(guó)的論文被引用量全球顯著領(lǐng)先

聯(lián)邦學(xué)習(xí)相關(guān)論文總引用量 TOP 10 國(guó)家是美國(guó)、中國(guó)、澳大利亞、德國(guó)、新加坡、英國(guó)、印度、日本、以色列和波蘭,具體信息如圖所示。其中,美國(guó)的論文總被引用量明顯高于其他國(guó)家,其較上期增長(zhǎng) 1.6 倍,仍占據(jù)榜首;中國(guó)的論文被引用量較上期增長(zhǎng)近 3 倍,保持第二位置。印度、以色列和波蘭是本期新進(jìn)入前十的國(guó)家,上期居于前十的沙特阿拉伯、韓國(guó)和瑞士本期未能進(jìn)入前十。

pYYBAGNHrf6Ab7wqAAJj6YT7vBY782.png

聯(lián)邦學(xué)習(xí)論文引用量 TOP 10 國(guó)家(2016-2021 年)

從領(lǐng)先國(guó)家來(lái)看,美國(guó)聯(lián)邦學(xué)習(xí)被引用量最高的論文是谷歌公司研究科學(xué)家 H. Brendan Mcmahan 作為一作發(fā)表的論文 Communication-efficient learning of deep networks from decentralized data,該論文于 2016 年發(fā)表于 ArXiv e-prints (2016): arXiv- 1602,并在2017年收錄于AISTATS (International Conference on Artificial Intelligence and Statistics),目前其被引用 4534 次。中國(guó)聯(lián)邦學(xué)習(xí)總體論文引用量居于第二,其中被引用最高的論文是香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)系教授楊強(qiáng)為第一作者、與微眾銀行 AI 部門(mén)、北京航空航天大學(xué)計(jì)算機(jī)學(xué)院的研究人員聯(lián)合發(fā)表的 Federated Machine Learning: Concept and Applications,該文被引用量 1936 次。

多開(kāi)源聯(lián)邦學(xué)習(xí)系統(tǒng)框架詳細(xì)介紹

一、OpenMined——PySyft

PySyft 是開(kāi)源社區(qū) OpenMined 推出的一個(gè)用于安全和私有深度學(xué)習(xí)的 Python 庫(kù)。它使用聯(lián)邦學(xué)習(xí)、差分隱私和加密計(jì)算來(lái)解耦私人和敏感數(shù)據(jù),可以在主要的深度學(xué)習(xí)框架中使用,例如 TensorFlow 和 PyTorch。PySyft 代表在深度學(xué)習(xí)程序中啟用可靠的隱私模型的首批嘗試之一。 PySyft 的核心組件是稱為 SyftTensor 的抽象。

SyftTensors 旨在表示數(shù)據(jù)的狀態(tài)或轉(zhuǎn)換,并且可以鏈接在一起。鏈結(jié)構(gòu)始終在其頭 部具有 PyTorch 張量,并且使用 child 屬性向下訪問(wèn)由 SyftTensor 體現(xiàn)的變換或狀態(tài),而使用 parent 屬性向上訪問(wèn)由 SyftTensor 體現(xiàn)的變換或狀態(tài)。

poYBAGNHrf-AAU7nAAMvYtyhVMA369.png

二、微眾銀行——FATE

微眾銀行 AI 部門(mén)研發(fā)了FATE(Federated AI Technology Enabler)聯(lián)邦學(xué)習(xí)開(kāi)源項(xiàng)目,是首個(gè)開(kāi)源的聯(lián)邦學(xué)習(xí)工業(yè)級(jí)框架。目前 FATE 開(kāi)源社區(qū)已匯聚了 700 多家企業(yè)、300 余所高校等科研機(jī)構(gòu)的開(kāi)發(fā)者,是國(guó)內(nèi)最大的聯(lián)邦學(xué)習(xí)開(kāi)源社區(qū)。

FATE 項(xiàng)目使用多方安全計(jì)算 (MPC) 以及同態(tài)加密 (HE) 技術(shù)構(gòu)建底層安全計(jì)算協(xié)議,以此支持不同種類的機(jī)器學(xué)習(xí)的安全計(jì)算,包括邏輯回歸、樹(shù)算法、深度學(xué)習(xí)(人工神經(jīng)網(wǎng)絡(luò))和遷移學(xué)習(xí)等。FATE 目前支持三種類型聯(lián)邦學(xué)習(xí)算法:橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)以及遷移學(xué)習(xí)。

FATE 整體架構(gòu)如圖所示。FATE 主倉(cāng)庫(kù)包含 FederatedML 核心聯(lián)邦算法庫(kù)和多方聯(lián)邦建模 Pipeline 調(diào)度模塊 FATE-Flow,F(xiàn)ATE 擁抱大數(shù)據(jù)生態(tài)圈,底層引擎支持使用微眾銀行自主研發(fā)的 EGGROLL 或者 Spark 進(jìn)行高性能的計(jì)算。圍繞 FATE 聯(lián)邦學(xué)習(xí)生態(tài),F(xiàn)ATE 還提供了完整的聯(lián)邦學(xué)習(xí)生態(tài)鏈,如聯(lián)邦可視化模塊 FATE-Board、聯(lián)邦在線推理模塊 FATE-Serving、聯(lián)邦多云管理 FATECloud 等。

pYYBAGNHrf-AAxCYAAKfdITtGzg456.png

微眾銀行 FATE 系統(tǒng)架構(gòu)

FederatedML 是 FATE 的聯(lián)邦學(xué)習(xí)算法庫(kù)模塊,提供了 20+種聯(lián)邦學(xué)習(xí)算法,支持縱向聯(lián)邦學(xué)習(xí)、橫向聯(lián)邦學(xué)習(xí)、聯(lián)邦遷移學(xué)習(xí)三種聯(lián)邦建模場(chǎng)景,覆蓋了工業(yè)建模的數(shù)據(jù)處理、特征變換、訓(xùn)練、預(yù)測(cè)、評(píng)估的全建模流程。另外,封裝了眾多的多方安全計(jì)算協(xié)議以提供給上層算法的調(diào)度和支持聯(lián)邦學(xué)習(xí)開(kāi)發(fā)者的聯(lián)邦算法開(kāi)發(fā)。

FATE-Flow 為 FATE 提供了端到端聯(lián)邦建模 Pipeline 調(diào)度和管理,主要包括 DAG 定義聯(lián)邦建模 pipeline、聯(lián)邦任務(wù)生命周期管理、聯(lián)邦任務(wù)協(xié)同調(diào)度、聯(lián)邦任務(wù)追蹤、聯(lián)邦模型管理等功能,實(shí)現(xiàn)了聯(lián)邦建模到生產(chǎn)服務(wù)一體化。 FATE-Board 聯(lián)邦學(xué)習(xí)建模的可視化工具,為終端用戶提供可視化和度量模型訓(xùn)練的全過(guò)程。

三、谷歌——TensorFlow Federated(TFF)

TensorFlow Federated project (TFF) 由谷歌公司開(kāi)發(fā)和維護(hù),是一個(gè)為聯(lián)邦機(jī)器學(xué)習(xí)和其他計(jì)算方法在去中心化數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的開(kāi)源框架。TFF 讓開(kāi)發(fā)者能在自己的模型和數(shù)據(jù)上模擬實(shí)驗(yàn)現(xiàn)有的聯(lián)邦學(xué)習(xí)算法,以及其他新穎的算法。TFF 提供的建造塊也能夠應(yīng)用于去中心化數(shù)據(jù)集上,來(lái)實(shí)現(xiàn)非學(xué)習(xí)化的計(jì)算,例如聚合分析。

TFF 的接口有兩層構(gòu)成:聯(lián)邦層(FL)應(yīng)用程序接口(API)和聯(lián)邦核心(FC)API。TFF 使得開(kāi)發(fā)者能夠聲明和表達(dá)聯(lián)邦計(jì)算,從而能夠?qū)⑵洳渴鹩诟黝愡\(yùn)行環(huán)境。 TFF 中包含的是一個(gè)單機(jī)的實(shí)驗(yàn)運(yùn)行過(guò)程模擬器。該聯(lián)邦學(xué)習(xí)的框架如圖所示。

poYBAGNHrgCAZIjPAAJIddKm6Pg745.png

不同于分布式訓(xùn)練理念,TFF 框架設(shè)計(jì)理念是以數(shù)據(jù)為主,而不是代碼分離上。在編寫(xiě)模型、訓(xùn)練代碼的時(shí)候,將 clients 和 server 看作一個(gè)整體,同一個(gè)文件里不需要分割開(kāi) Server 端(S 端)和 Clients 端(C 端)的代碼,C 端和 S 端的區(qū)分是在代碼邏輯層面的。也就是說(shuō),用戶在編寫(xiě) TFF 代碼時(shí),不需要指明某段代碼是應(yīng)該運(yùn)行在 C 端還是 S 端)僅需要指出每個(gè)數(shù)據(jù)是儲(chǔ)存在C 端/S 端、是全局唯一的還是有多份拷貝的即可。類似 TF 的 non-eager 模式,當(dāng)用戶編寫(xiě)完模型代碼和訓(xùn)練代碼后,TFF 會(huì)自動(dòng)地將代碼分別放置到 clients 和 server 設(shè)備上。用戶只要關(guān)注模型架構(gòu)、C&S 端交互的數(shù)據(jù)格式、聚合多 clients 模型的方式即可。

四、字節(jié)跳動(dòng)——Fedlearner

字節(jié)跳動(dòng)聯(lián)邦學(xué)習(xí)平臺(tái) Fedlearner 基于字節(jié)跳動(dòng)在推薦和廣告領(lǐng)域積累的機(jī)器學(xué)習(xí)建模技術(shù)和個(gè)性化推薦算法,可以支持多類聯(lián)邦學(xué)習(xí)模式,已經(jīng)在電商、金融、教育等行業(yè)多個(gè)落地場(chǎng)景實(shí)際應(yīng)用。

Fedlearner 聯(lián)邦學(xué)習(xí)平臺(tái)整個(gè)系統(tǒng)包括控制臺(tái)、訓(xùn)練器、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)等模塊,各模塊對(duì)稱部署在參與聯(lián)邦的雙方的集群上,透過(guò)代理互相通信,實(shí)現(xiàn)訓(xùn)練。

五、百度——PaddleFL

PaddleFL 是一個(gè)基于百度飛槳(PaddlePaddle)的開(kāi)源聯(lián)邦學(xué)習(xí)框架 。PaddleFL 提供很多聯(lián)邦學(xué)習(xí)策略及其在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、推薦算法等領(lǐng)域的應(yīng)用,例如,橫向聯(lián)邦學(xué)習(xí)(聯(lián)邦平均、差分隱私、安全聚合)和縱向聯(lián)邦學(xué)習(xí)(帶 privc 的邏輯回歸,帶 ABY3 的神經(jīng)網(wǎng)絡(luò))。研究人員可以用 PaddleFL 復(fù)制和比較不同的聯(lián)邦學(xué)習(xí)算法。

此外,PaddleFL 還提供傳統(tǒng)機(jī)器學(xué)習(xí)訓(xùn)練策略的應(yīng)用,例如多任務(wù)學(xué)習(xí)、聯(lián)邦學(xué)習(xí)環(huán)境下的遷移學(xué)習(xí)、主動(dòng)學(xué)習(xí)。依靠 PaddlePaddle 的大規(guī)模分布式訓(xùn)練和 Kubernetes 對(duì)訓(xùn)練任務(wù)的彈性調(diào)度能力,PaddleFL 可以基于全棧開(kāi)源軟件輕松地部署。

pYYBAGNHrgCAYllKAAFKAmg0e_Q728.jpg

PaddleFL 中主要提供兩種解決方案:Data Parallel 以及 Federated Learning with MPC (PFM)。通過(guò) Data Parallel,各數(shù)據(jù)方可以基于經(jīng)典的橫向聯(lián)邦學(xué)習(xí)策略(如 FedAvg,DPSGD等)完成模型訓(xùn)練。此外,PFM 是基于多方安全計(jì)算(MPC)實(shí)現(xiàn)的聯(lián)邦學(xué)習(xí)方案。作為 PaddleFL 的一個(gè)重要組成部分,PFM 可以很好地支持聯(lián)邦學(xué)習(xí),包括橫向、縱向及聯(lián)邦遷移學(xué)習(xí)等多個(gè)場(chǎng)景。

六、京東——九數(shù)聯(lián)邦學(xué)習(xí) 9NFL

京東自研的九數(shù)聯(lián)邦學(xué)習(xí)平臺(tái)(9NFL)于2020 年初正式上線。9NFL 平臺(tái)基于京東商業(yè)提升事業(yè)部 9N 機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行開(kāi)發(fā),在 9N 平臺(tái)離線訓(xùn)練、離線預(yù)估、線上推斷(inference)、模型的發(fā)版等功能的基礎(chǔ)上,增加了多任務(wù)跨域調(diào)度、跨域高性能網(wǎng)絡(luò)、大規(guī)模樣本匹配、大規(guī)??缬蚵?lián)合訓(xùn)練、模型分層級(jí)加密等功能。整個(gè)平臺(tái)可以支持百億級(jí)/百 T 級(jí)超大規(guī)模的樣本匹配、聯(lián)合訓(xùn)練,并且針對(duì)跨域與跨公網(wǎng)的復(fù)雜環(huán)境,對(duì)可用性與容災(zāi)設(shè)計(jì)了一系列的機(jī)制與策略,保障整個(gè)系統(tǒng)的高吞吐、高可用、高性能。

poYBAGNHrgCAZvKoAAEgr_XqjO0556.jpg

七、FedML.AI——FedML

FedML 是一個(gè)以研究為導(dǎo)向的聯(lián)邦學(xué)習(xí)圖書(shū)館,支持分布式計(jì)算、移動(dòng)/物聯(lián)網(wǎng)設(shè)備上訓(xùn)練和獨(dú)立模擬,可促進(jìn)新的聯(lián)合學(xué)習(xí)算法的開(kāi)發(fā)和公平的性能比較。支持分布式計(jì)算、移動(dòng)/物聯(lián)網(wǎng)設(shè)備上訓(xùn)練和獨(dú)立模擬。

FedML 還通過(guò)靈活且通用的 API 設(shè)計(jì)和參考基準(zhǔn)實(shí)現(xiàn)和促進(jìn)了各種算法研究。針對(duì)非 I.I.D 設(shè)置的精選且全面的基準(zhǔn)數(shù)據(jù)集旨在進(jìn)行公平比較。 FedML 可以為聯(lián)合學(xué)習(xí)研究社區(qū)提供開(kāi)發(fā)和評(píng)估算法的有效且可重復(fù)的手段。

pYYBAGNHrgGABayaAAqx6KoGg5o536.png

八、臺(tái)灣人工智能實(shí)驗(yàn)室——Harmonia

臺(tái)灣人工智能實(shí)驗(yàn)室(AI Labs)開(kāi)發(fā)了一個(gè)開(kāi)源項(xiàng)目 Harmonia,旨在開(kāi)發(fā)系統(tǒng)/基礎(chǔ)設(shè)施和圖書(shū)館,以簡(jiǎn)化聯(lián)合學(xué)習(xí)的研究和生產(chǎn)用途。Harmonia 使用工程師熟悉的環(huán)境和語(yǔ)言,比如熱門(mén)的開(kāi)源工具 Kubernetes、Git Large File Storage 和 GitOps 等。Harmonia 利用 Git 進(jìn)行訪問(wèn)控制、模型版本控制和服務(wù)器和聯(lián)合培訓(xùn) (FL)運(yùn)行參與者之間的同步。FL 訓(xùn)練策略、全局模型和本地模型/漸變保存在 Git 存儲(chǔ)庫(kù)中。這些 Git respoitroies 的更新會(huì)觸發(fā) FL 系統(tǒng)狀態(tài)轉(zhuǎn)換。這將自動(dòng)化 FL 培訓(xùn)過(guò)程。

FL 參與者被激活為由操作員和應(yīng)用容器組成的 K8S 吊艙。操作容器負(fù)責(zé)維護(hù) FL 系統(tǒng)狀態(tài),并通過(guò) gRPC 與應(yīng)用程序容器通信。本地訓(xùn)練和聚合函數(shù)封裝在應(yīng)用程序容器中。此設(shè)計(jì)可在 Kubernetes 群集環(huán)境中輕松部署,并快速插件現(xiàn)有機(jī)器學(xué)習(xí)(ML)工作流。

pYYBAGNHrgGAdfGUAAE8gCXd8Uk366.png

非開(kāi)源聯(lián)邦學(xué)習(xí)系統(tǒng)框架詳細(xì)介紹

一、騰訊——Angel PowerFL

Angel Power FL(原名 AngelFL)安全聯(lián)合計(jì)算是基于騰訊自研的多數(shù)據(jù)源聯(lián)合計(jì)算技術(shù),提供安全、易用、穩(wěn)定、高性能的聯(lián)邦機(jī)器學(xué)習(xí)、聯(lián)合數(shù)據(jù)分析解決方案,助力數(shù)據(jù)融合應(yīng)用。它構(gòu)建在 Angel 機(jī)器學(xué)習(xí)平臺(tái)上,利用 Angel--PS 支持萬(wàn)億級(jí)模型訓(xùn)練的能力,將很多在 Worker 上的計(jì)算提升到 PS(參數(shù)服務(wù)器)端;Angel PowerFL 為聯(lián)邦學(xué)習(xí)算法提供了計(jì)算、加密、存儲(chǔ)、狀態(tài)同步等基本操作接口,通過(guò)流程調(diào)度模塊協(xié)調(diào)參與方任務(wù)執(zhí)行狀態(tài),而通信模塊完成了任務(wù)訓(xùn)練過(guò)程中所有數(shù)據(jù)的傳輸。

采用去中心的架構(gòu)設(shè)計(jì),全自動(dòng)化流程,算法支持 LR、XGBoost、PCA、用戶自定義神經(jīng)網(wǎng)絡(luò)模型(如 MLP、CNN、RNN、 Wide&Deep,DeepFM, DSSM 等)。Angel PowerFL 聯(lián)邦學(xué)習(xí)已經(jīng)在騰訊金融云、騰訊廣告聯(lián)合建模等業(yè)務(wù)中開(kāi)始落地。目前主要應(yīng)用產(chǎn)品是騰訊云安全隱私計(jì)算。

poYBAGNHrgKAJXZPAAE8ARkAu-4694.jpg

二、京東科技——Fedlearn

京東數(shù)字科技集團(tuán)(簡(jiǎn)稱:京東數(shù)科,現(xiàn)名: 京東科技)于 2020 年 10 月推出自主研發(fā)的聯(lián)邦學(xué)習(xí)平臺(tái) Fedlearn。Fedlearn 平臺(tái)具有“六位一 體”核心能力:多自研聯(lián)邦學(xué)習(xí)算法、多方同態(tài)加密、輕量級(jí)分布式架構(gòu)、區(qū)塊鏈與聯(lián)邦學(xué)習(xí)融合、數(shù)據(jù)安全容器、一站式操作平臺(tái)。

京東科技 Fedlearn 平臺(tái)具有三大特點(diǎn):

1、數(shù)據(jù)和模型隱私方面

不同參與方之間沒(méi)有直接交換本地?cái)?shù)據(jù)和模型參數(shù),而是交換更新參數(shù)所需的中間數(shù)值。為了避免從這些中間數(shù)值中恢復(fù)數(shù)據(jù)信息,采用增加擾動(dòng)對(duì)這些數(shù)值進(jìn)行保護(hù),確保了數(shù)據(jù)和模型的隱私安全

2、通訊方面

引入中心化數(shù)據(jù)交換的概念,使得數(shù)據(jù)的交換獨(dú)立于參與方

3、計(jì)算架構(gòu)

采用異步計(jì)算框架,提高模型訓(xùn)練的速度

三、富數(shù)科技——FMPC

富數(shù)多方安全計(jì)算平臺(tái)(FMPC)是上海富數(shù)科技旗下產(chǎn)品,目前未開(kāi)源,主要通過(guò)體驗(yàn)或者服務(wù)購(gòu)買方式使用 。

pYYBAGNHrgKAPR2nAAOXdkmPyfc967.png

FMPC 架構(gòu)具有以下特點(diǎn):

1、聯(lián)邦學(xué)習(xí)

原始數(shù)據(jù)不出門(mén),參與各方本地建模;沒(méi)有敏感數(shù)據(jù)流通,只交互中間計(jì)算結(jié)果;整個(gè)模型被保護(hù),參與各方只有自己模型參數(shù);私有化部署;開(kāi)放 API 快速開(kāi)發(fā);支持主流機(jī)器學(xué)習(xí)算法,如 LR, DT, RF, Xgboost 等;建模速度快 3 倍;密文訓(xùn)練精度誤差<1%。?

2、多方安全計(jì)算

落地應(yīng)用計(jì)算量 1.1 萬(wàn)+次 /天;支持多方數(shù)據(jù)安全求交;支持一次多項(xiàng)式;支持多方歸因統(tǒng)計(jì)分析;支持多方多維數(shù)據(jù)鉆取分析;私有化部署。

3、匿蹤查詢

支持 100 億+條記錄;秒級(jí)響應(yīng)時(shí)間;查詢授權(quán)存證;甲方查詢信息不泄露;加密隧道避免中間留存;私有化部署。

隱私計(jì)算(聯(lián)邦學(xué)習(xí))液冷GPU服務(wù)器

藍(lán)海大腦隱私計(jì)算(聯(lián)邦學(xué)習(xí))大數(shù)據(jù)液冷GPU服務(wù)器基于數(shù)據(jù)隱私保護(hù)的安全建模過(guò)程提供豐富的可視化呈現(xiàn),為終端用戶可視化和度量模型訓(xùn)練的全過(guò)程,支持模型訓(xùn)練過(guò)程全流程的跟蹤、統(tǒng)計(jì)和監(jiān)控等,幫助模型開(kāi)發(fā)人員快速搭建聯(lián)邦學(xué)習(xí)任務(wù),可根據(jù)客戶需求深度定制開(kāi)發(fā)。是一款具備高性能、高可靠、高靈活及高擴(kuò)展特性的深度學(xué)習(xí)操作系統(tǒng),由高性能計(jì)算加速中間件、深度學(xué)習(xí)訓(xùn)練平臺(tái)及數(shù)據(jù)推理平臺(tái)三個(gè)子系統(tǒng)構(gòu)成,為用戶提供數(shù)據(jù)處理、模型訓(xùn)練、推理服務(wù)應(yīng)用等完整的 AI 解決方案。

一、用戶現(xiàn)狀

1、數(shù)據(jù)產(chǎn)品相互分離

同一業(yè)務(wù)可能隨著業(yè)務(wù)發(fā)展和需求變化,同時(shí)部署不同的數(shù)據(jù)庫(kù)和數(shù)據(jù)平臺(tái)產(chǎn)品;此外,為了保證企業(yè)的核心競(jìng)爭(zhēng)力,企業(yè)不斷部署新的數(shù)據(jù)庫(kù)和數(shù)據(jù)平臺(tái)產(chǎn)品,不斷建設(shè)、合并和遷移業(yè)務(wù)。然而,豎井建設(shè)模式使得數(shù)據(jù)產(chǎn)品相互分離,導(dǎo)致數(shù)據(jù)孤島問(wèn)題,最終降低了企業(yè)的數(shù)據(jù)共享能力。

2、系統(tǒng)復(fù)雜性劇增

傳統(tǒng)的解決方案需要經(jīng)過(guò)復(fù)雜耗時(shí)的ETL,將數(shù)據(jù)反復(fù)存儲(chǔ)在同一個(gè)存儲(chǔ)介質(zhì)中,然后重新開(kāi)發(fā)業(yè)務(wù)獲得數(shù)據(jù)計(jì)算結(jié)果。數(shù)據(jù)分散存儲(chǔ)在不同的數(shù)據(jù)產(chǎn)品中,數(shù)據(jù)結(jié)構(gòu)存在差異,給跨產(chǎn)品數(shù)據(jù)間的關(guān)聯(lián)計(jì)算帶來(lái)了一定的難度。

3、開(kāi)發(fā)運(yùn)維困難

系統(tǒng)集成一段時(shí)間后,業(yè)務(wù)部門(mén)會(huì)推出新的業(yè)務(wù)數(shù)據(jù)庫(kù),ETL流程需要改造。底層數(shù)據(jù)庫(kù)頻繁的業(yè)務(wù)架構(gòu)調(diào)整和數(shù)據(jù)變換也會(huì)導(dǎo)致集成系統(tǒng)的失敗。面對(duì)集成系統(tǒng)的開(kāi)發(fā)和運(yùn)維難題,企業(yè)自身的技術(shù)開(kāi)發(fā)能力顯然難以應(yīng)對(duì),最終集成系統(tǒng)的響應(yīng)速度無(wú)法滿足業(yè)務(wù)的時(shí)效性需求。

poYBAGNHrgKAXm6ZAAFCNypIJbY533.jpg

二、方案優(yōu)勢(shì)

1、統(tǒng)一平臺(tái)架構(gòu)

連接企業(yè)內(nèi)部各類數(shù)據(jù)源,滿足各種多樣復(fù)雜的業(yè)務(wù)需求,為企業(yè)提供平臺(tái)數(shù)據(jù)計(jì)算能力

2、極致性能

自主研發(fā)的統(tǒng)一分布式計(jì)算引擎可以根據(jù)不同的查詢對(duì)象,通過(guò)各種優(yōu)化技術(shù)自動(dòng)優(yōu)化查詢,并實(shí)現(xiàn)毫秒級(jí)延遲

3、多數(shù)據(jù)源支持

支持傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)、Nosql數(shù)據(jù)庫(kù)、MPP數(shù)據(jù)庫(kù)和大數(shù)據(jù)平臺(tái)產(chǎn)品

4、統(tǒng)一的SQL查詢

自主研發(fā)統(tǒng)一的SQL編譯器,通過(guò)一個(gè)標(biāo)準(zhǔn)的SQL就可以實(shí)現(xiàn)各個(gè)數(shù)據(jù)庫(kù)之間的關(guān)聯(lián)查詢

5、數(shù)據(jù)獨(dú)立性

實(shí)現(xiàn)跨數(shù)據(jù)庫(kù)、跨平臺(tái)的數(shù)據(jù)集成的同時(shí),滿足底層數(shù)據(jù)庫(kù)的自治需求

6、安全合規(guī)

提供統(tǒng)一的權(quán)限體系、用戶行為審計(jì)與溯源,提供數(shù)據(jù)安全與合規(guī)保障

三、客戶收益

1、建設(shè)統(tǒng)一計(jì)算平臺(tái),簡(jiǎn)化IT系統(tǒng)架構(gòu),降低IT成本

2、提升企業(yè)數(shù)據(jù)共享能力,快速響應(yīng)業(yè)務(wù)需求

3、提升企業(yè)信息技術(shù)架構(gòu)的敏捷程度,助力企業(yè)數(shù)據(jù)數(shù)字轉(zhuǎn)型

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29447

    瀏覽量

    267772
  • 分布式
    +關(guān)注

    關(guān)注

    1

    文章

    843

    瀏覽量

    74427
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8328

    瀏覽量

    132219
  • 網(wǎng)絡(luò)訓(xùn)練

    關(guān)注

    0

    文章

    3

    瀏覽量

    1493
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    百度言APP升級(jí)為小言

    百度宣布其文心言APP正式升級(jí)為小言,標(biāo)志著百度智能搜索領(lǐng)域邁出了重要步。
    的頭像 發(fā)表于 09-04 16:06 ?305次閱讀

    百度發(fā)布智能代碼助手“心快碼”

    近日舉辦的WAVE SUMMIT大會(huì)上,百度公司震撼發(fā)布了全新的智能代碼助手——“心快碼”。這款基于百度心大模型的強(qiáng)大工具,結(jié)合了海量
    的頭像 發(fā)表于 07-01 11:20 ?775次閱讀

    百度推出全新智能代碼助手心快碼,引領(lǐng)編碼效率新革命

    6月28日的百度WAVE SUMMIT深度學(xué)習(xí)開(kāi)發(fā)者大會(huì)上,百度公司宣布了其旗下備受矚目的智能代碼助手Baidu Comate的正式中文名稱——“
    的頭像 發(fā)表于 06-29 16:26 ?805次閱讀

    百度WAVE SUMMIT深度學(xué)習(xí)開(kāi)發(fā)者大會(huì),心大模型4.0 Turbo震撼發(fā)布

    及應(yīng)用國(guó)家工程研究中心主任王海峰正式發(fā)布了心大模型4.0 Turbo,標(biāo)志著百度人工智能領(lǐng)域的又重大突破。
    的頭像 發(fā)表于 06-28 16:30 ?416次閱讀

    百度申請(qǐng)小言商標(biāo)

    近日,百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司知識(shí)產(chǎn)權(quán)領(lǐng)域有了新動(dòng)作。據(jù)天眼查知識(shí)產(chǎn)權(quán)信息顯示,百度已申請(qǐng)多枚“小言”商標(biāo),這些商標(biāo)將涵蓋廣告銷
    的頭像 發(fā)表于 06-19 09:20 ?415次閱讀

    2024百度移動(dòng)生態(tài)萬(wàn)象大會(huì):百度新搜索11%內(nèi)容已AI生成

    2024百度移動(dòng)生態(tài)萬(wàn)象大會(huì):百度新搜索11%內(nèi)容已AI生成 今天2024百度移動(dòng)生態(tài)萬(wàn)象大會(huì)在江蘇蘇州舉辦,特別是AI搜索與百度
    發(fā)表于 05-30 18:58 ?374次閱讀

    百度心大模型擴(kuò)展合作領(lǐng)域

    百度創(chuàng)始人兼CEO李彥宏2024年第季度財(cái)報(bào)電話會(huì)上宣布,心大模型API繼與中國(guó)三星、榮耀成功合作后,本季度再度實(shí)現(xiàn)重要突破。小米、
    的頭像 發(fā)表于 05-17 11:17 ?487次閱讀

    日產(chǎn)汽車將搭載百度AI解決方案

    日產(chǎn)汽車與百度達(dá)成戰(zhàn)略合作,雙方正式簽署諒解備忘錄,共同探索智能技術(shù)汽車領(lǐng)域的應(yīng)用。根據(jù)協(xié)議,日產(chǎn)將在中國(guó)市場(chǎng)的車型上搭載百度的AI解決方案,進(jìn)
    的頭像 發(fā)表于 05-06 14:14 ?392次閱讀

    分布式智慧終端:挑戰(zhàn)與解決方案

    分布式智慧終端應(yīng)用中面臨多種挑戰(zhàn),以下是其中些關(guān)鍵的挑戰(zhàn)以及可能的解決方案: 數(shù)據(jù)致性挑戰(zhàn) :
    的頭像 發(fā)表于 01-24 14:50 ?368次閱讀

    分布式光伏電力監(jiān)控解決方案

    分布式光伏電力監(jiān)控解決方案
    的頭像 發(fā)表于 01-14 08:07 ?439次閱讀
    <b class='flag-5'>分布式</b>光伏電力監(jiān)控<b class='flag-5'>解決方案</b>

    百度言用戶規(guī)模突破1億

    近日,百度公布了個(gè)令人振奮的消息:言大模型的用戶規(guī)模已經(jīng)突破了1億。
    的頭像 發(fā)表于 01-02 16:10 ?584次閱讀

    新火種AI | 谷歌Gemini“抄襲”百度言?AI訓(xùn)練數(shù)據(jù)陷難題

    谷歌自己放出“實(shí)錘”,Gemini化身百度心大模型?
    的頭像 發(fā)表于 12-20 09:09 ?453次閱讀
    新火種AI | <b class='flag-5'>谷歌</b>Gemini“抄襲”<b class='flag-5'>百度</b><b class='flag-5'>文</b>心<b class='flag-5'>一</b>言?AI<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)陷難題

    淺析Redis 分布式解決方案

    Redis 分布式解決方案種基于Redis實(shí)現(xiàn)的分布式鎖機(jī)制,可以確保分布式環(huán)境中對(duì)共享
    的頭像 發(fā)表于 12-04 14:00 ?431次閱讀

    redis分布式鎖可能出現(xiàn)的問(wèn)題及解決方案

    。 誤刪鎖 Redis分布式鎖通常使用SETNX命令創(chuàng)建,并使用DEL命令刪除。高并發(fā)情況下,可能會(huì)發(fā)生誤刪鎖的情況,即個(gè)線程A獲得鎖后,另個(gè)線程B也可以獲得鎖并刪除了線程A獲得
    的頭像 發(fā)表于 12-04 11:29 ?872次閱讀

    springcloud 分布式事務(wù)解決方案實(shí)例

    么都執(zhí)行成功,要么都執(zhí)行失敗。本文將介紹如何使用Spring Cloud來(lái)實(shí)現(xiàn)分布式事務(wù)。 分布式系統(tǒng)中,使用數(shù)據(jù)庫(kù)事務(wù)來(lái)保證數(shù)據(jù)致性是常見(jiàn)的做法。Spring Cloud通過(guò)集成
    的頭像 發(fā)表于 12-03 16:32 ?1035次閱讀