一区二区三区人妻,亚洲国产成人精品无码区花野真一,日本无码一成人免费视频

作者：Sunita Nadampalli

Amazon SageMaker（https://aws.amazon.com/sagemaker/）提供了多種機器學習（ML）基礎(chǔ)設(shè)施和模型部署選項，以幫助滿足您的ML推理需求。它是一個完全托管的服務(wù)，并與MLOps工具集成，因此您可以努力擴展模型部署，降低推理成本，在生產(chǎn)中更有效地管理模型，并減輕操作負擔。SageMaker提供多個推理選項（https://docs.aws.amazon.com/sagemaker/latest/dg/deploy-model.html#deploy-model-options），因此您可以選擇最適合您工作負載的選項。

新一代CPU由于內(nèi)置的專用指令在ML推理方面提供了顯著的性能提升。在本文中，我們重點介紹如何利用基于AWS Graviton3（https://aws.amazon.com/ec2/graviton/）的Amazon Elastic Compute Cloud（EC2）C7g實例（https://aws.amazon.com/blogs/aws/new-amazon-ec2-c7g-instances-powered-by-aws-graviton3-processors/），以幫助在Amazon SageMaker上進行實時推理（https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html）時將推理成本降低高達50％，相對于可比較的EC2實例。我們展示了如何評估推理性能并在幾個步驟中將您的ML工作負載切換到AWS Graviton實例。

為了涵蓋廣泛的客戶應(yīng)用程序，本文討論了PyTorch、TensorFlow、XGBoost和scikit-learn框架的推理性能。我們涵蓋了計算機視覺（CV）、自然語言處理（NLP）、分類和排名場景，以及用于基準測試的ml.c6g、ml.c7g、ml.c5和ml.c6i SageMaker實例。

基準測試結(jié)果

AWS Graviton3基于EC2 C7g實例相對于Amazon SageMaker上的可比EC2實例，可以為PyTorch、TensorFlow、XGBoost和scikit-learn模型推理帶來高達50%的成本節(jié)省，同時推理的延遲也得到了降低。

為了進行比較，我們使用了四種不同的實例類型：

? c7g.4xlarge（https://aws.amazon.com/ec2/instance-types/c7g/）

? c6g.4xlarge（https://aws.amazon.com/ec2/instance-types/c6g/）

? c6i.4xlarge（https://aws.amazon.com/ec2/instance-types/c6i/）

? c5.4xlarge（https://aws.amazon.com/ec2/instance-types/c5/）

這四個實例都有16個vCPU和32 GiB內(nèi)存。

在下面的圖表中，我們測量了四種實例類型每百萬推理的成本。我們進一步將每百萬推理成本結(jié)果歸一化為c5.4xlarge實例，該實例在圖表的Y軸上測量為1。您可以看到，對于XGBoost模型，c7g.4xlarge（AWS Graviton3）的每百萬推理成本約為c5.4xlarge的50%，約為c6i.4xlarge的40%；對于PyTorch NLP模型，與c5和c6i.4xlarge實例相比，成本節(jié)省約30-50%。對于其他模型和框架，與c5和c6i.4xlarge實例相比，我們測得至少30%的成本節(jié)省。

與前面的推理成本比較圖類似，下圖顯示了相同四種實例類型的模型p90延遲。我們進一步將延遲結(jié)果標準化為c5.4xlarge實例，在圖表的Y軸中測量為1。c7g.4xlarge（AWS Graviton3）模型推理延遲比在c5.4xlage和c6i.4xla格上測量的延遲高出50%。

遷移到AWS Graviton實例

要將模型部署到AWS Graviton實例，可以使用AWS深度學習容器（DLC）（https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-graviton-containers-sm-support-only），也可以自帶與ARMv8.2體系結(jié)構(gòu)兼容的容器（https://github.com/aws/deep-learning-containers#building-your-image）。

將模型遷移（或新部署）到AWS Graviton實例很簡單，因為AWS不僅為使用PyTorch、TensorFlow、scikit-learn和XGBoost托管模型提供容器，而且模型在架構(gòu)上也是不可知的。您也可以帶上自己的庫，但請確保您的容器是用支持ARMv8.2體系結(jié)構(gòu)的環(huán)境構(gòu)建的。有關(guān)更多信息，請參閱構(gòu)建自己的算法容器（https://sagemaker-examples.readthedocs.io/en/latest/advanced_functionality/scikit_bring_your_own/scikit_bring_your_own.html）。

您需要完成三個步驟才能部署模型：

1.創(chuàng)建SageMaker模型。除其他參數(shù)外，它將包含有關(guān)模型文件位置、將用于部署的容器以及推理腳本的位置的信息。（如果已經(jīng)在計算優(yōu)化推理實例中部署了現(xiàn)有模型，則可以跳過此步驟。）

2.創(chuàng)建端點配置。這將包含有關(guān)端點所需的實例類型的信息（例如，對于AWS Graviton3，為ml.c7g.xlarge）、在上一步中創(chuàng)建的模型的名稱以及每個端點的實例數(shù)。

3.使用在上一步中創(chuàng)建的端點配置啟動端點。

有關(guān)詳細說明，請參閱使用Amazon SageMaker在基于AWS Graviton的實例上運行機器學習推理工作負載（https://aws.amazon.com/blogs/machine-learning/run-machine-learning-inference-workloads-on-aws-graviton-based-instances-with-amazon-sagemaker/）。

性能基準管理方法

我們使用Amazon SageMaker Inference Recommender（https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender.html）來自動化不同實例的性能基準測試。該服務(wù)根據(jù)不同實例的延遲和成本來比較ML模型的性能，并推薦以最低成本提供最佳性能的實例和配置。我們使用推理推薦器收集了上述性能數(shù)據(jù)。有關(guān)更多詳細信息，請參閱GitHub回購。

您可以使用示例筆記本（https://github.com/aws/amazon-sagemaker-examples/blob/main/sagemaker-inference-recommender/huggingface-inference-recommender/huggingface-inference-recommender.ipynb）來運行基準測試并再現(xiàn)結(jié)果。我們使用以下模型進行基準測試：

1.PyTorch–ResNet50圖像分類，DistilBERT情感分析，RoBERTa填充掩碼和RoBERTa情感分析。
2.TensorFlow–TF Hub ResNet 50和ML Commons TensorFlow BERT。
3.XGBoost和scikit learn–我們測試了四個模型，以涵蓋分類器、排序器和線性回歸場景。

結(jié)論

相對于Amazon SageMaker上的可比EC2實例，AWS使用基于Graviton3的EC2 C7g實例測量了PyTorch，TensorFlow，XGBoost和scikit-learn模型推理高達50％的成本節(jié)省。您可以按照本文提供的步驟將現(xiàn)有推理用例遷移到AWS Graviton或部署新的ML模型。您還可以參考AWS Graviton技術(shù)指南（https://github.com/aws/aws-graviton-getting-started），該指南提供了優(yōu)化庫和最佳實踐列表，可幫助您在不同工作負載上使用AWS Graviton實例實現(xiàn)成本效益。

如果您發(fā)現(xiàn)使用情況，在AWS Graviton上沒有觀察到類似的性能提升，請與我們聯(lián)系。我們將繼續(xù)添加更多性能改進，使AWS Graviton成為最具成本效益和高效的通用ML推理處理器。”

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

cpu

cpu

+關(guān)注

關(guān)注
68

文章
10780

瀏覽量
210493
Amazon

Amazon

+關(guān)注

關(guān)注
1

文章
119

瀏覽量
17155
AWS

AWS

+關(guān)注

關(guān)注
0

文章
423

瀏覽量
24260

原文標題：?使用AWS Graviton降低Amazon SageMaker推理成本

文章出處：【微信號：Arm軟件開發(fā)者，微信公眾號：Arm軟件開發(fā)者】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

請問ESP32-WROVER-KIT如何通過AWS IoT Device Tester (IDT) 的測試?

我們是一間臺灣的公司(正文科技)，目前使用 ESP32-WROVER-KIT 開發(fā)連接 AWS 的 IoT 產(chǎn)品，SDK 是 Amazon FreeRTOS。 AWS 要求我們通過 \"

發(fā)表于 06-28 07:51

交互式查詢服務(wù)Amazon Athena的使用

aws服務(wù)從入門到精通 Amazon Athena操作

發(fā)表于 08-29 07:48

Arm Neoverse V1的AWS Graviton3在深度學習推理工作負載方面的作用

機器學習 (ML) 是云和邊緣基礎(chǔ)設(shè)施中增長最快的部分之一。在 ML 中，深度學習推理預(yù)計會增長得更快。在本博客中，我們比較了三種 Amazon Web Services (AWS) EC2 云實例

發(fā)表于 08-31 15:03

在AWS云中使用Arm處理器設(shè)計Arm處理器

1、在AWS云中使用Arm處理器設(shè)計Arm處理器　　Amazon Web Services （AWS）宣布推出基于 Arm 的全新 AWS Gra

發(fā)表于 09-02 15:55

使用Arm服務(wù)器減少基因組學的時間和成本

1、使用Arm服務(wù)器減少基因組學的時間和成本　　我們現(xiàn)在可以展示三種主要aligners在Arm架構(gòu)AWS Graviton3上的性能。AWS Gravaton3是

發(fā)表于 10-09 16:32

DBS x AWS DeepRacer League將完全在線運行

AWS DeepRacer車輛是基于云的，完全自動的1/18比例賽車，這些賽車使用Amazon Sagemaker構(gòu)建并由強化學習提供支持-先進的ML技術(shù)非常適合自動駕駛。

發(fā)表于 09-16 16:07 ?2667次閱讀

AWS機器學習服務(wù)GPU成本大幅度降低，高達18%

近日，AWS表示，其Amazon SageMaker機器學習服務(wù)兩個云實例ml.p2和ml.p3 GPU成本大幅降低，高達18%。

發(fā)表于 10-10 09:35 ?1874次閱讀

AWS發(fā)布新一代Amazon Aurora Serverless

。同時，AWS還發(fā)布了一個新的開源項目，幫助更多組織從傳統(tǒng)數(shù)據(jù)庫遷移到開源替代方案。對于不想處理自助數(shù)據(jù)庫繁雜工作的客戶，Amazon Aurora Serverless v2可在不到一秒的時間內(nèi)擴展至支持數(shù)十萬個事務(wù)，與按業(yè)務(wù)高峰需求進行資源配置的方式相比，可節(jié)省高達9

發(fā)表于 12-03 10:38 ?1862次閱讀

AWS基于Arm架構(gòu)的Graviton 2處理器落地中國

Graviton 2處理器提供支持的Amazon Elastic Compute Cloud（Amazon EC2）M6g、C6g和R6g實例已在由光環(huán)新網(wǎng)運營的AWS中國（北京）地

發(fā)表于 02-01 11:46 ?3015次閱讀

中科創(chuàng)達成為Amazon SageMaker服務(wù)就緒計劃首批認證合作伙伴

近日，亞馬遜云科技于其年度盛會re：Invent上正式推出了Amazon SageMaker服務(wù)就緒計劃。中科創(chuàng)達作為亞馬遜云科技合作伙伴應(yīng)邀出席峰會并正式加入Amazon SageMaker

發(fā)表于 12-06 11:41 ?1175次閱讀

使用AWS Graviton處理器優(yōu)化的PyTorch 2.0推理

新一代的CPU因為內(nèi)置了專門的指令，在機器學習（ML）推理方面提供了顯著的性能提升。結(jié)合它們的靈活性、高速開發(fā)和低運營成本，這些通用處理器為其他現(xiàn)有硬件解決方案提供了一種替代選擇。 AWS、Arm、Meta等公司幫助優(yōu)

發(fā)表于 05-28 09:35 ?668次閱讀

2.0優(yōu)化PyTorch推理與AWS引力子處理器

2.0優(yōu)化PyTorch推理與AWS引力子處理器

發(fā)表于 08-31 14:27 ?550次閱讀

Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs，比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進行推理的示例。我們將

發(fā)表于 11-01 17:48 ?861次閱讀

亞馬遜云科技推出五項Amazon SageMaker新功能

Inference通過優(yōu)化加速器的使用，平均降低50%的基礎(chǔ)模型部署成本，并平均縮短了20%的延遲時間； Amazon SageMaker Clarify能夠讓客戶更輕松地根據(jù)支持負

發(fā)表于 12-06 14:04 ?693次閱讀

亞馬遜云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g實例正式可用

北京2024年7月15日?/美通社/ -- 亞馬遜云科技宣布基于自研芯片Amazon Graviton4處理器的Amazon Elastic Compute Cloud (Amazon

發(fā)表于 07-15 16:09 ?314次閱讀