機(jī)器學(xué)習(xí)工作流編排工具Netflix
大?。?/span>0.3 MB 人氣: 2017-10-10 需要積分:1
推薦 + 挑錯(cuò) + 收藏(0) + 用戶(hù)評(píng)論(0)
Meson是一個(gè)通用的工作流編排和調(diào)度框架,用于管理跨異構(gòu)系統(tǒng)執(zhí)行工作負(fù)載的ML管道。它管理著一些ML管道的生命周期,這些ML管道用來(lái)構(gòu)建、訓(xùn)練并驗(yàn)證驅(qū)動(dòng)視頻推薦的個(gè)性化算法。
Meson的主要目標(biāo)之一是提高算法實(shí)驗(yàn)的速度,可靠性和可重復(fù)性,同時(shí)允許工程師使用他們選擇的技術(shù)來(lái)處理每個(gè)步驟。
增強(qiáng)機(jī)器學(xué)習(xí)管道
在Netflix內(nèi)部,Spark、MLlib、Python、R以及Docker在當(dāng)前一代的機(jī)器學(xué)習(xí)管道中起到了重要作用。
我們來(lái)看看驅(qū)動(dòng)視頻推薦的典型機(jī)器學(xué)習(xí)管道,以及在Meson中它是如何表示和處理的。
?。c(diǎn)擊放大圖片)
工作流包括:
選擇一組用戶(hù)——使用Hive查詢(xún)來(lái)選擇用于分析的隊(duì)列
清洗/準(zhǔn)備數(shù)據(jù)——一個(gè)Python腳本來(lái)創(chuàng)建兩組用戶(hù),用于并行路徑
在并行路徑中,一條使用Spark構(gòu)建并分析全局模型,使用HDFS作為臨時(shí)存儲(chǔ)。
另一條使用R來(lái)構(gòu)建具體地區(qū)(國(guó)家)模型。地區(qū)的數(shù)量根據(jù)用于分析所選擇的隊(duì)列動(dòng)態(tài)變化。圖中的構(gòu)建地區(qū)模型和驗(yàn)證地區(qū)模型步驟對(duì)于每個(gè)地區(qū)(國(guó)家)重復(fù)執(zhí)行,在運(yùn)行時(shí)擴(kuò)展,使用不同的參數(shù)集執(zhí)行,如下所示。
驗(yàn)證——當(dāng)兩條路徑收斂時(shí),使用Scala代碼對(duì)模型的穩(wěn)定性進(jìn)行測(cè)試。在這個(gè)過(guò)程中,如果模型不穩(wěn)定,則回到上面的步驟,重復(fù)整個(gè)過(guò)程。
發(fā)布新模型——使用Docker容器發(fā)布這個(gè)新模型,其他生產(chǎn)系統(tǒng)來(lái)獲取這個(gè)模型。
?。c(diǎn)擊放大圖片)
上圖顯示了上面描述的工作流運(yùn)行過(guò)程。
用戶(hù)集選擇,數(shù)據(jù)清洗的完成由綠色步驟表示。
并行路徑正在處理:
Spark分支完成了模型的生成和驗(yàn)證。for-each分支分出了4個(gè)不同的地區(qū)模型,它們都在處理(黃色)。
用于模型選擇的Scala步驟是激活的(藍(lán)色)。這表明一個(gè)或多個(gè)輸入分支已經(jīng)完成,但它還不會(huì)安排執(zhí)行,因?yàn)檫€有些輸入分支(a)還沒(méi)有開(kāi)始或(b)正在處理。
運(yùn)行時(shí)上下文和參數(shù)隨著工作流傳遞,用于業(yè)務(wù)決策。
揭開(kāi)面紗
讓我們深入幕后場(chǎng)景來(lái)了解Meson是如何在不同系統(tǒng)之間統(tǒng)籌,以及生態(tài)系統(tǒng)中不同組件之間的相互影響。工作流有著不同的資源需求和總運(yùn)行時(shí)間期望。我們依靠Apache Mesos這樣的資源管理系統(tǒng)來(lái)滿(mǎn)足這些需求。Mesos提供了任務(wù)隔離,以及CPU、內(nèi)存、存儲(chǔ)和其他計(jì)算資源的優(yōu)秀抽象。Meson利用這些功能來(lái)實(shí)現(xiàn)任務(wù)的彈性和容錯(cuò)性。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
機(jī)器學(xué)習(xí)工作流編排工具Netflix下載
相關(guān)電子資料下載
- 如何創(chuàng)建FPGA控制的機(jī)器人手臂 49
- 機(jī)器學(xué)習(xí)需要掌握的九種工具盤(pán)點(diǎn) 16
- Hugging Face被限制訪問(wèn) 404
- 《人工智能在指揮和控制系統(tǒng)中的決策支持》 133
- 生成式人工智能和機(jī)器學(xué)習(xí)正在這9個(gè)學(xué)科中打造未來(lái) 216
- 智慧礦山AI算法帶你解決皮帶運(yùn)行難題! 51
- 人工智能領(lǐng)域存在第一性原理嗎? 53
- 英特爾啟動(dòng)首個(gè)AI PC加速計(jì)劃,目標(biāo)2025年前為超100萬(wàn)臺(tái)PC提供AI特性 223
- PLC就是邏輯控制嗎?PLC的網(wǎng)絡(luò)通信怎么樣? 51
- 機(jī)器學(xué)習(xí)常用的5種采樣方法盤(pán)點(diǎn) 45