Module 8: ML Lineage Tracking


title: “Module 8: ML 血源追踪” weight: 8


这个笔记本向您展示了如何使用Amazon SageMaker进行ML血源追踪。它创建并存储关于机器学习(ML)工作流程各个步骤的信息,从数据准备到模型部署。使用跟踪信息,您可以重现工作流程步骤、跟踪模型和数据集血源,并建立模型治理和审计标准。 阅读更多内容Amazon SageMaker ML 血源追踪

注意:此模块依赖于在Module 1 中准备的数据集、在Module 2 中为Athena创建的查询、在Module 3 中用于训练模型的训练作业,以及在Module 5 中创建的数据wrangler流。

关键要点

  • 我们创建了ML血源追踪,将SageMaker处理作业、正在处理的原始数据、处理代码、您用于从Feature Store获取训练和测试集的查询、用于特征工程的数据整理流、S3中的训练和测试数据以及训练代码联系在一起,形成表示为DAG的血源。

  • 我们查询创建的ML血源以推断以下内容:1/使用哪些特征组来训练此模型?2/哪些模型是使用此特征组训练的?3/哪些特征组是使用此数据源填充的?4/哪些数据源被用于填充特征组?

  • 我们将使用示例数据测试这个整个设置。

导航到笔记本

  • 导航到amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab目录结构的主目录。然后导航到08-ml-lineage-tracking并打开notebook m8_nb1_ml-lineage-tracking.ipynb

  • 将内核设置为Python 3 (Data Science),并选择实例为ml.t3.medium

  • 检查以确认子模块ml-lineage-helper和其下的所有文件如下所示存在。如果不存在,请继续执行下一步进行更新。

  • 运行以下命令更新缺失的子模块。 ::code[git submodule update]

  • 按Shift+Enter在每个单元格中执行单元格。当代码运行时,方括号内会出现*。几秒钟后,代码执行将完成,*会被替换为数字。

  • 您可以按照笔记本中的说明继续进行。

附加资源

请阅读这篇博客文章 ,它解释了如何将ML血源扩展到包括ML特征和特征处理,这可以帮助数据科学团队主动管理特征。然后,您可以使用该血源回答关于如何构建模型和特征以及哪些模型和端点在消耗它们的关键问题。 有关使用Amazon SageMaker的机器学习中的模型和数据血源的一般概述,请参阅这篇博客文章 。它解释了如何使用模型血源,以及它如何与量化金融背景下的可重复性有关。