本节我们创建ML Pipeline所需要的组件。我们将在cloud 9使用CDK创建所需的资源,Cloud 9的环境需满足:
Node.js版本大于10.13.0
CDK版本大于2.5.0
Docker版本大于20
下载代码库:
git clone https://github.com/aws-samples/aws-rtb-intelligence-Kit
cd aws-rtb-intelligence-Kit/
安装模块依赖项:
npm install
为了构建此存储库的CDK模块并编译 Typescript 代码,执行以下命令:
npm run build
cdk bootstrap
使用以下命令部署 RTB (real time bidding)的组件,这些组件用于运行数据处理和 ML 模型训练:
cdk deploy "aik/sagemaker-emr" --require-approval never
此过程可能需要 5 分钟:

对应CloudFormation页面会创建一个stack。等待CDK部署完成:

至此,我们部署了:
SageMaker Studio Domain以及下面一个用户,稍后将使用这个用户来运行数据处理和 ML训练Service Catalog Product,允许从 SageMaker Studio创建EMR 集群。我们将使用 EMR 集群来进行数据处理可以进入Service Catalog服务查看创建的portfolio:

查看EMR Product:

里面定义了创建EMR集群的细节:

进入 SageMaker服务,找到CDKSample这个Domain:

默认CDK已经创建了一个user, 打开他的Studio:

进入Studio后,打开Data -> EMR Clusters页面,点击Create:

在 “选择模板” 步骤中,选择SageMaker EMR Product模板。该模板是之前通过 CDK 创建的:

输入集群名,其他字段保留为默认值(AutoTerminationIdleTimout可以调大些):

集群的创建需要一些时间,但是我们可以在等待期间继续进行下一步。创建完成后的效果:
