Module 7: Feature monitoring


title: “模块 7: 特征监控” weight: 7


在本笔记本中,我们将说明如何使用 AWS Glue DataBrew 创建特征统计数据来实现特征监控。

AWS Glue DataBrew 是一种视觉化数据准备工具,可帮助您清理和规范化数据而无需编写代码。在运行配置文件作业时,DataBrew 还允许客户指定要自动生成的数据集的数据质量统计信息。这允许用户根据数据集的性质和大小自定义数据配置文件统计信息,如确定重复值、相关性和异常值,并创建仅包含满足其需求的统计信息的自定义数据配置文件概览。

注意:本模块依赖于模块 1 中创建的特征组

关键要点

  • 提供了一个实用文件 feature_monitoring_utils.py,其中包含丰富的辅助函数,用于准备和运行 databrew 配置文件作业。

  • 我们首先从离线特征存储中创建一个 DataBrew 数据集,然后在该数据集上运行 DataBrew 配置文件作业。

  • 我们从配置文件作业执行中提取统计数据,并将其保存到 S3

  • 我们执行一些额外的特征组统计数据的可视化

导航至笔记本电脑

  • 导航到 amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab 目录结构的主目录。然后导航到 07-module-feature-monitoring 并打开笔记本 m7_nb1_feature_monitoring.ipynb

  • 将内核设置为 Python 3 (Data Science),并选择实例 ml.t3.medium

  • 通过在每个单元格中按 Shift+Enter 来执行单元格。代码运行时,方括号中会出现一个 。几秒钟后,代码执行将完成, 将被替换为一个数字。

  • 您可以按照笔记本中的说明继续操作。

AWS、Large Language Model 等专业术语不翻译。