环境搭建

本节我们创建ML Pipeline所需要的组件。我们将在cloud 9使用CDK创建所需的资源,Cloud 9的环境需满足:

  • Node.js版本大于10.13.0

  • CDK版本大于2.5.0

  • Docker版本大于20

部署 ML Data Pipeline

下载代码库:

git clone https://github.com/aws-samples/aws-rtb-intelligence-Kit
cd aws-rtb-intelligence-Kit/

安装模块依赖项:

npm install

为了构建此存储库的CDK模块并编译 Typescript 代码,执行以下命令:

npm run build
cdk bootstrap

使用以下命令部署 RTB (real time bidding)的组件,这些组件用于运行数据处理和 ML 模型训练:

cdk deploy "aik/sagemaker-emr" --require-approval never

此过程可能需要 5 分钟:

image-20240202092813103

对应CloudFormation页面会创建一个stack。等待CDK部署完成:

image-20240202093256193

至此,我们部署了:

  • 一个SageMaker Studio Domain以及下面一个用户,稍后将使用这个用户来运行数据处理和 ML训练
  • 一个Service Catalog Product,允许从 SageMaker Studio创建EMR 集群。我们将使用 EMR 集群来进行数据处理

可以进入Service Catalog服务查看创建的portfolio:

image-20240202212946903

查看EMR Product:

image-20240202213011409

里面定义了创建EMR集群的细节:

image-20240202213058180

创建 Amazon EMR 集群

进入 SageMaker服务,找到CDKSample这个Domain:

image-20240202093107245

默认CDK已经创建了一个user, 打开他的Studio:

image-20240202093233476

进入Studio后,打开Data -> EMR Clusters页面,点击Create:

image-20240202093353418

“选择模板” 步骤中,选择SageMaker EMR Product模板。该模板是之前通过 CDK 创建的:

image-20240202093414792

输入集群名,其他字段保留为默认值(AutoTerminationIdleTimout可以调大些):

image-20240202093454850

集群的创建需要一些时间,但是我们可以在等待期间继续进行下一步。创建完成后的效果:

image-20240202093808485