本节我们创建ML Pipeline所需要的组件。我们将在cloud 9使用CDK创建所需的资源,Cloud 9的环境需满足:
Node.js版本大于10.13.0
CDK版本大于2.5.0
Docker版本大于20
下载代码库:
git clone https://github.com/aws-samples/aws-rtb-intelligence-Kit
cd aws-rtb-intelligence-Kit/
安装模块依赖项:
npm install
为了构建此存储库的CDK模块并编译 Typescript 代码,执行以下命令:
npm run build
cdk bootstrap
使用以下命令部署 RTB (real time bidding)
的组件,这些组件用于运行数据处理和 ML 模型训练:
cdk deploy "aik/sagemaker-emr" --require-approval never
此过程可能需要 5 分钟:
对应CloudFormation页面会创建一个stack。等待CDK部署完成:
至此,我们部署了:
SageMaker Studio Domain
以及下面一个用户,稍后将使用这个用户来运行数据处理和 ML训练Service Catalog Product
,允许从 SageMaker Studio创建EMR 集群。我们将使用 EMR 集群来进行数据处理可以进入Service Catalog服务查看创建的portfolio:
查看EMR Product:
里面定义了创建EMR集群的细节:
进入 SageMaker服务,找到CDKSample
这个Domain:
默认CDK已经创建了一个user, 打开他的Studio:
进入Studio后,打开Data -> EMR Clusters
页面,点击Create:
在 “选择模板” 步骤中,选择SageMaker EMR Product
模板。该模板是之前通过 CDK 创建的:
输入集群名,其他字段保留为默认值(AutoTerminationIdleTimout
可以调大些):
集群的创建需要一些时间,但是我们可以在等待期间继续进行下一步。创建完成后的效果: