0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟和谷歌分別開源分布式深度學(xué)習框架對比

工程師鄧生 ? 來源:大數(shù)據(jù)文摘微信公眾號 ? 作者:Miggy ? 2020-11-01 10:49 ? 次閱讀

微軟和谷歌一直在積極研究用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的新框架,并且在最近將各自的成果開源——微軟的 PipeDream 和谷歌的 GPipe。

原則上看,他們都遵循了類似的原則來訓(xùn)練深度學(xué)習模型。這兩個項目已在各自的研究論文(PipeDream,GPipe)中進行了詳細介紹,這篇文章將對此進行總結(jié)。

先放上 GitHub 開源地址:

微軟:

https://github.com/msr-fiddle/pipedream

谷歌:

https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py

眾所周知,在實驗過程中,雖然訓(xùn)練基本模型比較瑣碎,但復(fù)雜度卻隨模型的質(zhì)量和大小線性增加。例如,2014 年 ImageNet 視覺識別挑戰(zhàn)賽的冠軍是 GoogleNet,它通過 400 萬個參數(shù)獲得了 74.8% 的 top1 準確性,而僅僅三年之后,2017 年 ImageNet 挑戰(zhàn)賽的冠軍就使用 1.458 億個參數(shù)(多了 36 倍)的最新神經(jīng)網(wǎng)絡(luò)實現(xiàn)了 top1 準確率——82.7%。但是,在同一時期,GPU 內(nèi)存僅增加了約 3 倍。

隨著模型縮放以達到更高的準確性,對這些模型的訓(xùn)練變得越來越具有挑戰(zhàn)性。前面的樣本也顯示了,依靠 GPU 基礎(chǔ)結(jié)構(gòu)的改進來實現(xiàn)更好的訓(xùn)練是不可持續(xù)的。我們需要分布式計算方法,這些方法可以并行化跨不同節(jié)點的訓(xùn)練工作量,以擴展訓(xùn)練規(guī)模。分布式訓(xùn)練的概念聽起來很瑣碎,但實際上卻極其復(fù)雜。

谷歌的 GPipe GPipe

專注于擴展深度學(xué)習計劃的訓(xùn)練工作量。從基礎(chǔ)架構(gòu)的角度來看,訓(xùn)練過程的復(fù)雜性是深度學(xué)習模型經(jīng)常被忽視的一個方面。訓(xùn)練數(shù)據(jù)集越來越大,越來越復(fù)雜。例如,在醫(yī)療保健領(lǐng)域,需要使用數(shù)百萬個高分辨率圖像進行訓(xùn)練的模型并不罕見。結(jié)果,訓(xùn)練過程通常要花費很長時間才能完成,并且內(nèi)存和 CPU 消耗非常大。

思考深度學(xué)習模型的分布式的有效方法是將其劃分為數(shù)據(jù)分布式和模型分布式。數(shù)據(jù)分布式方法采用大型機器集群,將輸入數(shù)據(jù)拆分到它們之間。模型分布式嘗試將模型移至具有特定硬件的加速器,例如 GPU 或 TPU,以加速模型訓(xùn)練。

概念上看,幾乎所有訓(xùn)練數(shù)據(jù)集都可以按照一定的邏輯進行分布式訓(xùn)練,但是關(guān)于模型的說法卻不盡相同。例如,一些深度學(xué)習模型由可以獨立訓(xùn)練的并行分支組成。在那種情況下,經(jīng)典策略是將計算劃分為多個分區(qū),并將不同的分區(qū)分配給不同的分支。但是,這種策略在按順序堆疊各層的深度學(xué)習模型中是不足的。

GPipe 通過利用一種稱為流水線的技術(shù)將數(shù)據(jù)和模型分布式結(jié)合在一起。從概念上講,GPipe 是一個分布式機器學(xué)習庫,它使用同步隨機梯度下降和流水線分布式進行訓(xùn)練,適用于由多個連續(xù)層組成的任何 DNN。

GPipe 在不同的加速器之間劃分模型,并自動將一小批訓(xùn)練樣本拆分為較小的微批。該模型允許 GPipe 的加速器并行運行,從而最大限度地提高了訓(xùn)練過程的可擴展性。

下圖說明了具有連續(xù)層的神經(jīng)網(wǎng)絡(luò)的 GPipe 模型在四個加速器之間分配。Fk 是第 k 個分區(qū)的復(fù)合正向計算函數(shù)。Bk 是相應(yīng)的反向傳播函數(shù)。Bk 取決于上層的 Bk + 1 和 Fk 的中間激活。在頂級模型中,我們可以看到網(wǎng)絡(luò)的順序性質(zhì)如何導(dǎo)致資源利用不足。下圖顯示了 GPipe 方法,其中將輸入的迷你批處理分為較小的宏批處理,這些宏批處理可由加速器同時處理。

圖片來源:

https://arxiv.org/pdf/1811.06965.pdf

微軟的 PipeDream

幾個月前,微軟研究院宣布創(chuàng)建 Project Fiddle,這是一系列旨在簡化分布式深度學(xué)習的研究項目。PipeDreams 是 Fiddle 項目首次發(fā)布的版本之一,專注于深度學(xué)習模型訓(xùn)練的并行化。

PipeDream 采用與其他方法不同的方法來利用稱為管道分布式的技術(shù)來擴展深度學(xué)習模型的訓(xùn)練。這種方法試圖解決數(shù)據(jù)和模型并行技術(shù)的一些挑戰(zhàn),例如 GPipe 中使用的技術(shù)。

通常,在云基礎(chǔ)架構(gòu)上進行訓(xùn)練時,數(shù)據(jù)并行方法在規(guī)模上會承受較高的通信成本,并且隨著時間的推移會提高 GPU 計算速度。類似地,模型分布式技術(shù)通常在利用硬件資源上更加效率低下,程序員需要決定如何在給定硬件部署的情況下拆分其特定模型,給他們帶來了不必要的負擔。

圖片來源:

http://www.microsoft.com/zh-cn/research/uploads/prod/2019/08/fiddle_pipedream_sosp19.pdf

PipeDream 嘗試通過使用稱為管道分布式的技術(shù)來克服數(shù)據(jù)模型分布式方法的一些挑戰(zhàn)。

從概念上講,管道分布計算涉及將 DNN 模型的各層劃分為多個階段,其中每個階段均由模型中的一組連續(xù)層組成。每個階段都映射到一個單獨的 GPU,該 GPU 對該階段中的所有層執(zhí)行正向傳遞(和反向傳遞)。

給定一個特定的深度神經(jīng)網(wǎng)絡(luò),PipeDream 會基于在單個 GPU 上執(zhí)行的簡短概要分析,自動確定如何對 DNN 的運算符進行分區(qū),在不同階段之間平衡計算負載,同時最大程度地減少與目標平臺的通信。即使存在模型多樣性(計算和通信)和平臺多樣性(互連拓撲和分層帶寬),PipeDream 也會有效地實現(xiàn)負載平衡。PipeDream 訓(xùn)練分布式的方法的原理比數(shù)據(jù)模型分布式方法具有多個優(yōu)點。

對于初學(xué)者而言,PipeDream 需要在工作程序節(jié)點之間進行較少的通信,因為管道執(zhí)行中的每個工作程序僅需要將漸變的子集和輸出激活信息傳達給單個其他工作程序。

圖片來源:

https://www.microsoft.com/zh-cn/research/uploads/prod/2019/08/fiddle_pipedream_sosp19.pdf

訓(xùn)練分布式是構(gòu)建更大、更準確的深度學(xué)習模型的關(guān)鍵挑戰(zhàn)之一。分布式訓(xùn)練方法是深度學(xué)習社區(qū)中一個活躍的研究領(lǐng)域,需要將有效的并發(fā)編程技術(shù)與深度學(xué)習模型的本質(zhì)相結(jié)合。盡管仍處于早期階段,但 Google 的 GPipe 和 Microsoft 的 PipeDream 本身已經(jīng)是很優(yōu)秀的產(chǎn)品,它是深度學(xué)習開發(fā)人員可用的兩種最具創(chuàng)造性的分布式訓(xùn)練方法。
責任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6537

    瀏覽量

    103808
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6102

    瀏覽量

    104780
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4726

    瀏覽量

    100311
收藏 人收藏

    評論

    相關(guān)推薦

    TensorFlow與PyTorch深度學(xué)習框架的比較與選擇

    深度學(xué)習作為人工智能領(lǐng)域的一個重要分支,在過去十年中取得了顯著的進展。在構(gòu)建和訓(xùn)練深度學(xué)習模型的過程中,深度
    的頭像 發(fā)表于 07-02 14:04 ?736次閱讀

    微軟和谷歌財報超預(yù)期 谷歌史上首次發(fā)放季度股息

    微軟和谷歌財報超預(yù)期 谷歌史上首次發(fā)放季度股息 全球企業(yè)都希望抓住當前人工智能蓬勃發(fā)展的契機,把自身產(chǎn)品與人工智緊密結(jié)合,在這AI浪潮下谷歌、微軟
    的頭像 發(fā)表于 04-26 17:56 ?407次閱讀

    谷歌模型框架是什么軟件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌開發(fā)的用于機器學(xué)習和人工智能的軟件框架,其中最著名的是TensorFlow。TensorFlow是一個
    的頭像 發(fā)表于 03-01 16:25 ?723次閱讀

    什么是分布式架構(gòu)?

    分布式架構(gòu)是指將一個系統(tǒng)或應(yīng)用拆分成多個獨立的節(jié)點,這些節(jié)點通過網(wǎng)絡(luò)連接進行通信和協(xié)作,以實現(xiàn)共同完成任務(wù)的一種架構(gòu)模式。這種架構(gòu)模式旨在提高系統(tǒng)的可擴展性、可靠性和性能表現(xiàn)。 一、分布式架構(gòu)的特點
    的頭像 發(fā)表于 01-12 15:04 ?1070次閱讀
    什么是<b class='flag-5'>分布式</b>架構(gòu)?

    分布式鎖的三種實現(xiàn)方式

    ,下面將分別介紹三種常見的實現(xiàn)方式。 一、基于數(shù)據(jù)庫實現(xiàn)的分布式鎖 在分布式系統(tǒng)中,數(shù)據(jù)庫是最常用的共享資源之一。因此,可以通過數(shù)據(jù)庫的特性來實現(xiàn)分布式鎖。常見的方式是創(chuàng)建一個專門用于
    的頭像 發(fā)表于 12-28 10:01 ?777次閱讀

    分布式系統(tǒng)硬件資源池原理和接入實踐

    ;Sink 端主要是初始化和釋放接口,用于響應(yīng) Source 端的控制指令,比如播放聲音或者采集視頻畫面。在設(shè)備組網(wǎng)上線后,分布式硬件框架調(diào)用各個硬件類型的南向接口實現(xiàn),分別初始化各類硬件
    發(fā)表于 12-06 10:02

    如何實現(xiàn)Redis分布式

    Redis是一個開源的內(nèi)存數(shù)據(jù)存儲系統(tǒng),可用于高速讀寫操作。在分布式系統(tǒng)中,為了保證數(shù)據(jù)的一致性和避免競態(tài)條件,常常需要使用分布式鎖來對共享資源進行加鎖操作。Redis提供了一種簡單而強大的
    的頭像 發(fā)表于 12-04 11:24 ?606次閱讀

    zookeeper分布式原理

    Zookeeper是一個開源分布式協(xié)調(diào)服務(wù),可以用于構(gòu)建高可用、高性能的分布式系統(tǒng)。它提供了一個簡單且高效的層次命名空間,可以用來存儲配置信息、狀態(tài)信息、命名服務(wù)等。Zookeeper的設(shè)計目標
    的頭像 發(fā)表于 12-03 16:33 ?564次閱讀

    springcloud 分布式事務(wù)解決方案實例

    么都執(zhí)行成功,要么都執(zhí)行失敗。本文將介紹如何使用Spring Cloud來實現(xiàn)分布式事務(wù)。 在分布式系統(tǒng)中,使用數(shù)據(jù)庫事務(wù)來保證數(shù)據(jù)一致性是常見的做法。Spring Cloud通過集成各種分布式事務(wù)解決方案,為開發(fā)者提供了多種選
    的頭像 發(fā)表于 12-03 16:32 ?1027次閱讀

    分布式通信是什么 分布式網(wǎng)絡(luò)搭建

    上的任務(wù)分配。 分布式通信 什么叫分布式? 機器人功能是由各種節(jié)點組成的,這些節(jié)點可能位于不同的計算機中,這種結(jié)構(gòu)可以將原本資源消耗較多的任務(wù),分配到不同的平臺上,減輕計算壓力,這就是分布式通信
    的頭像 發(fā)表于 11-27 15:49 ?684次閱讀
    <b class='flag-5'>分布式</b>通信是什么 <b class='flag-5'>分布式</b>網(wǎng)絡(luò)搭建

    什么是分布式直流電源?分布式直流電源的范圍 分布式直流電的特性

    什么是分布式直流電源?分布式直流電源的范圍 分布式直流電的特性? 分布式直流電源(Distributed DC Power Supply)是指分布
    的頭像 發(fā)表于 11-16 11:17 ?983次閱讀

    springcloud分布式事務(wù)解決方案

    Spring Cloud是一套用于構(gòu)建分布式系統(tǒng)的開源框架,它提供了一系列組件和工具,可以幫助開發(fā)人員快速構(gòu)建和管理基于微服務(wù)架構(gòu)的應(yīng)用程序。在分布式系統(tǒng)中,事務(wù)的處理是一個重要的問題
    的頭像 發(fā)表于 11-16 11:03 ?1951次閱讀

    springclould分布式教程

    Spring Cloud是一個基于Spring Boot的分布式系統(tǒng)開發(fā)工具,它提供了一系列的分布式系統(tǒng)解決方案,可以幫助開發(fā)者快速構(gòu)建和部署分布式應(yīng)用程序。本文將介紹Spring Cloud
    的頭像 發(fā)表于 11-16 10:59 ?424次閱讀

    spring分布式框架有哪些

    Spring分布式框架是一套基于Spring框架的解決方案,用于構(gòu)建分布式系統(tǒng)。它提供了一系列的組件和模塊,可以幫助開發(fā)人員輕松地構(gòu)建可擴展、高可用、高性能的
    的頭像 發(fā)表于 11-16 10:58 ?707次閱讀

    深度學(xué)習框架DeepSpeed使用指南

    最常見的深度學(xué)習框架應(yīng)該是TensorFlow、Pytorch、Keras,但是這些框架在面向大規(guī)模模型的時候都不是很方便。 比如Pytorch的
    的頭像 發(fā)表于 10-30 10:09 ?2794次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習</b><b class='flag-5'>框架</b>DeepSpeed使用指南