0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

國產(chǎn)調(diào)度器之光——Fsched到底有多能打?

jf_01684537 ? 來源:jf_01684537 ? 作者:jf_01684537 ? 2023-08-30 22:01 ? 次閱讀

這是一篇推薦我們速石自研調(diào)度器——Fsched的文章??雌饋碓趯iT寫調(diào)度器,但又不完全在寫。往下看,你就懂了。

本篇一共五個章節(jié):

一、介紹一下主角——速石自研調(diào)度器Fsched

二、只要有個調(diào)度器,就夠了嗎?

三、全面對比:速石研發(fā)平臺 VS LSF Suite

四、如果你想嘗試AI——

五、不止半導(dǎo)體領(lǐng)域。。。。

介紹一下主角——速石自研調(diào)度器Fsched

fastone Scheduler,簡稱Fsched,是速石科技所有產(chǎn)品的核心調(diào)度組件。Ta是面向HPC集群的操作系統(tǒng),是HPC集群的“大腦”,用于對HPC集群內(nèi)的計算資源進行管理、監(jiān)控,對用戶提交的任務(wù)進行統(tǒng)一管理、分發(fā)和遠程執(zhí)行。Fsched是速石科技基于開源的Slurm版本進化而來的全新產(chǎn)品。

1、我們的Fsched調(diào)度器到底厲害在哪?

先看一組我們在半導(dǎo)體領(lǐng)域用戶的真實驗證數(shù)據(jù):

5個月時間內(nèi):

CPU調(diào)度峰值達到5萬核;

提交了超過8000萬Jobs;

構(gòu)建超過700臺機器組成的大規(guī)模集群;

使用量約3000萬核時。

Fsched性能指標(biāo)

吞吐量:

1000 jobs/second

響應(yīng)時間:

1 ms

集群規(guī)模:

單個Fsched集群能夠支持的最大節(jié)點數(shù):1000

單個Fsched集群能夠支持的最大CPU核數(shù):30000

總結(jié)一下,F(xiàn)sched調(diào)度器優(yōu)勢:

1. 完全由速石獨立開發(fā),性能卓越;

2. 我們能提供代碼級技術(shù)支持;

3. 支持市面上幾乎所有EDA工具

4. 服務(wù)了100+家不同類型的半導(dǎo)體行業(yè)用戶;

5. 兼容LSF/SGE等調(diào)度器,使用體驗不變。

關(guān)于調(diào)度器科普和不同流派近二十年的發(fā)展歷程,可以點擊回顧:億萬打工人的夢:16萬個CPU隨你用

2、代碼級技術(shù)支持有什么不一樣?

代碼級技術(shù)支持的特別之處主要體現(xiàn)在解決問題的路徑上。一句話,我們能做很多人做不到的事情。

一般問題:我們站在產(chǎn)品視角來解決

特殊問題:我們以開發(fā)者身份來解決比如一些特殊調(diào)度策略的改造與優(yōu)化,我們是開發(fā)者,所以能做。包括各種調(diào)度器日志的監(jiān)控分析,優(yōu)化調(diào)度器的提交方式和腳本等等。

DEBUG:深入代碼級的技術(shù)支持舉一個典型例子:當(dāng)研發(fā)提交任務(wù)出現(xiàn)異常狀態(tài),怎么辦?

我們首先需要定位與任務(wù)相關(guān)的日志。日志分為:基礎(chǔ)設(shè)施層日志、中間件層日志、應(yīng)用層日志等。IT和研發(fā)工程師的關(guān)注點不一樣:IT工程師一般看基礎(chǔ)設(shè)施層日志,CAD和研發(fā)工程師看中間件層日志和應(yīng)用層日志。不同角色各看各的,定位問題效率低。

wKgZomToBFaAK9sWAAWuaFWSRyE761.png

我們通過Fsched調(diào)度器:

1. 把調(diào)度任務(wù)的異常日志分類,找出是哪一層的問題;

2. 任務(wù)狀態(tài)跟蹤,通過異常應(yīng)用找出相應(yīng)進程和IO信息,方便判斷;

3. 通過數(shù)據(jù)分析抓取日志中的關(guān)鍵信息。

找到問題,over。

3、Slurm之上,我們還做了什么?

Slurm是厲害的:全球60%的TOP500超算中心和超大規(guī)模集群(包括我國的天河二號等)都采用Slurm作為調(diào)度系統(tǒng)。它擁有容錯率高、支持異構(gòu)資源、高度可擴展等優(yōu)點,適用性相當(dāng)強。

那么,基于Slurm之上,我們還做了些什么?

從0到1,幫助用戶更快,更簡單地用起來

1.產(chǎn)品級IT自動化管理,標(biāo)準化地調(diào)用資源,保證環(huán)境一致性,降低用戶配置復(fù)雜度和出錯率,上手更容易;

2. 從業(yè)務(wù)出發(fā),F(xiàn)sched與底層資源的聯(lián)動性強,根據(jù)任務(wù)需求自動伸縮,更符合云上使用方式。

wKgaomToBGCAVRlrABMXmD6kJMQ537.png

從1到10,讓用戶用得穩(wěn)定,用得放心

1.對Slurm開源版進行修復(fù)與增強。修復(fù)Slurm開源版在復(fù)雜環(huán)境下任務(wù)異常崩潰等問題,增加了混合云智能調(diào)度能力;

2. 基于Wrapper組件,F(xiàn)sched對上層EDA應(yīng)用進行了兼容與優(yōu)化,保證用戶使用體驗不變;PS:同樣是Wrapper,水平也是有高下的。要達到多年戰(zhàn)斗在一線的專業(yè)高級口譯的經(jīng)驗和水平,只能說:有難度。

3. 根據(jù)最佳實踐經(jīng)驗總結(jié)的流程與規(guī)則,能優(yōu)化EDA Workflow,提高調(diào)度器使用效率;

4.代碼級支持能力讓用戶無后顧之憂。

只要有個調(diào)度器,就夠了嗎?

答案自然是否定的。

為什么?

或許,我們可以換個角度來回答這個問題。

就像汽車出現(xiàn)之前,用戶的期望永遠是——1匹更快的馬一樣。

在當(dāng)下芯片設(shè)計研發(fā)領(lǐng)域,我們?nèi)绻颜{(diào)度器類比馬,那么汽車是什么呢?

我們給大家簡單描繪一下:

一個站在整個芯片設(shè)計研發(fā)體系和架構(gòu)視角來滿足EDA行業(yè)用戶性能、功能、體驗的產(chǎn)品。

1. Ta是完整的一體化產(chǎn)品,功能緊密耦合,且經(jīng)過層層實戰(zhàn)考驗;

2. Ta解決的是完整生命周期的芯片設(shè)計業(yè)務(wù)問題,調(diào)度器只是其中一個模塊;

3. Ta具有對企業(yè)未來發(fā)展的彈性,能擴展至不同規(guī)模和更多業(yè)務(wù)路線,比如AI。

而這,正是我們與其他很多產(chǎn)品最大的區(qū)別之一。

我們的產(chǎn)品在設(shè)計之初就是面向EDA應(yīng)用,服務(wù)芯片設(shè)計研發(fā)業(yè)務(wù)場景的。這也決定了我們解決問題的出發(fā)點永遠是:是否滿足研發(fā)業(yè)務(wù)需求,然后從上至下地解決問題。

1、我們提供的是一整套上中下層聯(lián)動的芯片設(shè)計研發(fā)環(huán)境:

1. 連接上層EDA應(yīng)用,對應(yīng)用本身的運行提供支持和優(yōu)化;

2. 連接底層資源,給用戶提供更靈活,更高效使用資源的能力;

3. 結(jié)合EDA應(yīng)用和底層資源的聯(lián)動和適配,給出最佳實踐經(jīng)驗。

2、我們的功能都是面向?qū)嶋H業(yè)務(wù)場景設(shè)計和提供的:

1.License調(diào)度優(yōu)化,可幫助企業(yè)用戶最大化提升License利用率,更好地規(guī)劃License購買策略,控制整體使用成本;

2. 我們能多維度監(jiān)控任務(wù)狀態(tài),提供基于EDA任務(wù)層的監(jiān)控、告警、數(shù)據(jù)統(tǒng)計分析功能與服務(wù),讓團隊管理者監(jiān)控各個重要指標(biāo)變化,從全局角度掌握項目的整體任務(wù)及資源情況,為未來項目合理規(guī)劃、集群生命周期管理、成本優(yōu)化提供支持;

wKgaomToBG2AewSGAAVEoZWWhpo810.png

3.日常數(shù)據(jù)統(tǒng)計與運營分析管理,實現(xiàn)問題可追溯,可追蹤,降低成本,提升整體項目管理效率。

3、我們的交互方式不改變EDA用戶使用習(xí)慣。

原來怎么用,現(xiàn)在還怎么用。

速石研發(fā)平臺 VS LSF Suite

半導(dǎo)體行業(yè)用戶最熟悉的調(diào)度器是LSF,就不多介紹了。

不過,它背后的LSF Suite大家就不一定熟悉了。

來來,我們盤一下,我們速石研發(fā)平臺跟LSF Suite的區(qū)別是什么?

1、根本區(qū)別:設(shè)計理念不一樣

我們是站在整個芯片設(shè)計研發(fā)體系和架構(gòu)視角來設(shè)計的一體化產(chǎn)品,解決的是完整生命周期的芯片設(shè)計業(yè)務(wù)問題,功能緊密耦合,且經(jīng)過層層實戰(zhàn)考驗。而Fsched調(diào)度器只是其中一個模塊,不單獨售賣,在我們的全線企業(yè)級產(chǎn)品均屬內(nèi)置,且與產(chǎn)品其他功能深度綁定。這正是我們上一節(jié)提到的面向EDA業(yè)務(wù)的產(chǎn)品定位決定的。

而LSF Suite里的核心調(diào)度器LSF與其他組件是不關(guān)聯(lián)的,屬于可選項。這也導(dǎo)致了用戶大多只接觸過LSF,而對它的其他組件沒有什么概念。

而且,因為各種功能組件之間獨立存在的,用戶使用的時候需要根據(jù)自己業(yè)務(wù)需要進行二次開發(fā)組裝,從零開始進行功能模塊需求評估、采購、對接、開發(fā)和測試驗證兼容性,才能搭建出一個完整的研發(fā)環(huán)境,時間周期也會比較長。另外還有期間的運維、后續(xù)的更新升級和功能擴展等事項。

2、性價比:速石研發(fā)平臺TCO更低

下圖是我們研發(fā)平臺與LSF Suite的橫向?qū)Ρ葓D,可以清楚地看到,兩者的收費模式差別很大。

wKgZomToBHqAdpOlAAYDHGqwZRM432.png

我們Fsched調(diào)度器是包含在平臺費用里的,相關(guān)組件也都是隨產(chǎn)品一起內(nèi)置的,不單獨收費。

而LSF Suite除了核心調(diào)度器按使用核數(shù)收費以外,所有功能組件都需要額外收費。

從總擁有成本來看,對用戶來說,速石研發(fā)平臺付出的成本更低,獲得的東西更多。還有很多隱性成本沒有列在表格里,比如對接調(diào)試時間成本,人工成本,售后支持成本等等。

總結(jié)一下,我們跟LSF Suite的五大主要區(qū)別:

1. 核心調(diào)度器Fsched完全國產(chǎn)自研,有代碼級支持能力;

2. 我們的產(chǎn)品設(shè)計初衷就是提供面向EDA業(yè)務(wù)的一整套研發(fā)環(huán)境,可擴展性強;

3. 各功能模塊緊密耦合,不單獨收費,整體性價比高;

4. 我們的CAD能力與經(jīng)驗,能有效提高上中下層整體聯(lián)動效率;

5. 我們兼容LSF/SGE等調(diào)度器,使用體驗不變。

如果你想嘗試AI——

目前,AI在芯片設(shè)計領(lǐng)域的應(yīng)用主要有兩條路線:

路線一:AI+EDA工具

Synopsys、Cadence與Siemens等公司紛紛在其最新工具中使用了AI技術(shù),覆蓋先進數(shù)字與模擬芯片的設(shè)計、驗證、測試和制造環(huán)節(jié),讓開發(fā)者在芯片開發(fā)的每一個階段都可以采用借助AI的自主學(xué)習(xí)能力,提供芯片設(shè)計生產(chǎn)力。

當(dāng)然,越來越多EDA工具也支持借助GPU進行運算加速。

路線二:AI算法模型訓(xùn)練

Google研究人員使用10,000個芯片布局圖來訓(xùn)練他們的深度學(xué)習(xí)模型——PRIME,人工智能生成的芯片的設(shè)計時間不到六個小時。

而NVIDIA設(shè)計了另一種用于芯片設(shè)計的深度學(xué)習(xí)方法——PrefixRL模型,NVIDIA使用其RL工具設(shè)計的電路比人類使用當(dāng)今EDA工具設(shè)計的電路小25%,但性能相似。

路線一需要支持全流程EDA工具的一整套研發(fā)環(huán)境,以及構(gòu)建異構(gòu)資源(CPU+GPU、本地+云上)的調(diào)度及管理平臺的能力。

路線二需要的支持企業(yè)從ML/LLM模型構(gòu)建、大規(guī)模訓(xùn)練到最終部署需求的MLOps模塊。

我們都有。

另外,我們剛剛發(fā)布的一款行業(yè)知識庫聊天應(yīng)用Megrez,面向企業(yè)客戶提供大語言模型的私有化部署能力,允許用戶自定義行業(yè)知識庫,實現(xiàn)領(lǐng)域知識的問答。

wKgZomToBIeAUOKKAADsKkdSWsM022.png

Megrez基于芯片設(shè)計領(lǐng)域提供的支持

不止半導(dǎo)體領(lǐng)域。。。。

在半導(dǎo)體以外的其他行業(yè),如生命科學(xué)、汽車/智能制造,我們也表現(xiàn)不錯:

汽車/智能制造

這樣跑COMSOL,是不是就可以發(fā)Nature了

LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置

怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?

生命科學(xué)

王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接

1分鐘告訴你用MOE模擬200000個分子要花多少錢

155個GPU!多云場景下的Amber自由能計算

提速2920倍!用AutoDock Vina對接2800萬個分子

關(guān)于fastone云平臺在各種EDA應(yīng)用上的表現(xiàn),可以點擊以下應(yīng)用名稱查看:

HSPICE│OPC│VCS│Virtuoso│Calibre

速石科技芯片設(shè)計五部曲,前三部先睹為快:

模擬IC│數(shù)字IC│算法仿真

- END -

我們有個IC設(shè)計研發(fā)云平臺

IC設(shè)計全生命周期一站式覆蓋

調(diào)度器Fsched國產(chǎn)化替代、專業(yè)IT-CAD服務(wù)

100+行業(yè)客戶落地實踐

支持海內(nèi)外多地協(xié)同研發(fā)與辦公

多層安全框架層層保障

現(xiàn)在免費試用,送200元體驗金,入股不虧~

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 仿真
    +關(guān)注

    關(guān)注

    50

    文章

    4003

    瀏覽量

    133248
  • eda
    eda
    +關(guān)注

    關(guān)注

    71

    文章

    2673

    瀏覽量

    172600
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29435

    瀏覽量

    267747
  • 調(diào)度器
    +關(guān)注

    關(guān)注

    0

    文章

    98

    瀏覽量

    5226
收藏 人收藏

    評論

    相關(guān)推薦

    5G到底有什么作用?

    國內(nèi)三大運營商的4G建設(shè)正在火熱的進行中,前幾天報道5G的先期技術(shù)規(guī)劃已經(jīng)開始,華為等公司已經(jīng)開始投入開發(fā)工作。作為一種典型的延續(xù)性技術(shù),5G的到來看來是不可避免的,但是其到底有什么作用呢?
    發(fā)表于 08-16 06:49

    Linux與Unix到底有什么不同

    Linux 與 Unix 到底有什么不同?
    發(fā)表于 05-08 14:36

    讓CPU告訴你硬盤和網(wǎng)絡(luò)到底有多慢

    硬盤和網(wǎng)絡(luò)到底有多慢看了就知道
    發(fā)表于 02-22 06:30

    反碼位是什么?到底有什么用?

    反碼位是什么?到底有什么用?
    發(fā)表于 05-07 07:16

    請問車規(guī)級芯片到底有哪些要求?

    請問車規(guī)級芯片到底有哪些要求?
    發(fā)表于 06-18 07:56

    ARM與單片機到底有啥區(qū)別?

    ARM與單片機到底有啥區(qū)別?
    發(fā)表于 11-05 07:29

    模擬看門狗到底有什么用處呢

    到底什么是模擬看門狗呢?模擬看門狗到底有什么用處呢?
    發(fā)表于 01-17 07:33

    ARM和DSP到底有什么區(qū)別?

    現(xiàn)在在學(xué)ARM,想知道ARM和DSP到底有什么區(qū)別?為什么有些地方用DSP有些用ARM
    發(fā)表于 10-19 07:20

    PCB板顏色到底有什么講究

    冷知識:PCB板顏色到底有哪些講究?
    的頭像 發(fā)表于 08-19 17:15 ?1.8w次閱讀

    工業(yè)互聯(lián)網(wǎng), 你到底有啥用?

    工業(yè)互聯(lián)網(wǎng),你到底有啥用?
    的頭像 發(fā)表于 03-01 12:32 ?3333次閱讀
    工業(yè)互聯(lián)網(wǎng), 你<b class='flag-5'>到底有</b>啥用?

    光纖衰減到底有什么作用

    電子發(fā)燒友網(wǎng)站提供《光纖衰減到底有什么作用.pdf》資料免費下載
    發(fā)表于 11-26 02:23 ?11次下載

    電源管理總線 (PMBus)—到底有什么價值?

    電源管理總線 (PMBus)—到底有什么價值?
    發(fā)表于 11-04 09:51 ?8次下載
    電源管理總線 (PMBus)—<b class='flag-5'>到底有</b>什么價值?

    智能家居或樓宇的“智商”到底有多高?

    智能家居或樓宇的“智商”到底有多高?
    發(fā)表于 11-04 09:51 ?4次下載
    智能家居或樓宇的“智商”<b class='flag-5'>到底有</b>多高?

    FPC與傳統(tǒng)PCB到底有什么區(qū)別.zip

    FPC與傳統(tǒng)PCB到底有什么區(qū)別
    發(fā)表于 03-01 15:37 ?4次下載

    COB與SMD到底有什么不同

    如今在應(yīng)用領(lǐng)域,COB和SMD兩種技術(shù)正在“平分春色”,但在微小間距LED領(lǐng)域,COB正在成為各大廠商都在爭相研發(fā)的行業(yè)主流技術(shù)。那么COB與SMD到底有什么不同呢?
    的頭像 發(fā)表于 11-02 09:37 ?2402次閱讀
    COB與SMD<b class='flag-5'>到底有</b>什么不同