Feature transformation and training


title: “特征转换和培训” weight: 4


在此笔记本中,我们演示了如何使用在模块2中导出的特征集并创建机器学习模型来根据历史记录预测客户是否会重新订购产品。鉴于该问题类型是有监督的二元分类,我们将使用SageMaker内置算法XGBoost设计此分类器。模型训练完成后,我们还将将已训练的模型部署为SageMaker端点以进行实时推理。

注意:本模块依赖于在模块1 中准备的数据集和创建的特征组。

关键要点

  • 我们从本地存储的CSV文件加载表格数据的子集,并将此训练数据分为训练数据集、验证数据集和测试数据集,并将其存储在s3中。

  • 然后,我们使用SageMaker内置XGBoost算法 训练模型并在SageMaker上部署。XGBoost是一种流行且通用的有监督学习算法,可用于回归、分类和排序问题。由于我们试图预测购物者是否会重新订购产品,这是一个二元分类问题,因此使用XGBoost非常合适。我们还将在SageMaker上将此训练模型托管为终端节点。

  • 然后,我们将使用测试数据通过已部署的终端节点进行实时推理。在训练模型时,我们将目标设置为binary:logistic,因此输出为概率值。根据该概率值,我们决定购物者是否会重新订购该产品。

导航到笔记本

  • 导航到amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab目录结构的主目录。然后导航到03-module-feature-transformation-and-training并打开笔记本m3_nb1_model_training.ipynb

  • 将内核设置为Python 3 (Data Science),实例选择ml.t3.medium

  • 按Shift+Enter执行每个单元格。代码运行时,中括号之间会出现*。几秒钟后,代码执行将完成,*将被替换为数字。

  • 您可以按照笔记本中的说明继续操作。