Data Wrangler架构

Data Wrangler 是 SageMaker ML 平台的一个组件,下图演示了 SageMaker Studio 的内部工作原理。它显示了 Studio 如何允许我们并行创建和运行多种类型的 ML 实例,为我们提供在这些实例类型中启动容器化内核作为会话的能力。

从图中我们可以看到,Data Wrangler 在 ml.m5.4xlarge 类型的实例中启动。Studio 的 Jupyter 服务器(SageMaker UI 服务器)自动在 ml.t3.medium 实例中启动,这是免费的。我们还可以看到一个 PyTorch 内核 会话在单独的 t3.medium 实例上运行。

使用 Data Wrangler 的 UI 创建的数据预处理或特征工程步骤可以通过 SageMaker Processing 扩展为全面的分布式处理作业。这是 Data Wrangler 提供的几个导出选项之一。当 Data Wrangler 启动一个处理作业时,它会启动一个 ML 实例集群来设置分布式处理作业,这也在图中显示。在图的右侧,我们还描述了客户的 VPC 中如何访问各种 SageMaker 组件。

lifecycle

SageMaker Data Wrangler提供了一个端到端的解决方案,用于导入、准备、转换、特征化和分析数据。我们可以将 Data Wrangler 数据准备流集成到我们的机器学习(ML)工作流中,以简化和优化数据预处理和特征工程,几乎不需要编码。我们还可以添加自己的 Python 脚本和转换来定制工作流。

Data Wrangler 提供以下核心功能来帮助我们分析和准备机器学习应用程序的数据:

  • 导入 - 连接并从S3、Athena、 Redshift、EMR、Snowflake、Databricks 和其他第三方 SAAS 应用程序(如 Slack、ServiceNow 等)导入数据。

  • 数据流 - 创建一个数据流来定义一系列 ML 数据准备步骤。我们可以使用一个流来组合来自不同数据源的数据集,确定要应用于数据集的转换的数量和类型,并定义一个可集成到 ML 管道中的数据准备工作流。

  • 转换 - 使用字符串、向量和数字数据格式化工具等标准转换来清理和转换我们的数据集。使用文本、日期/时间嵌入和分类编码等转换来特征化我们的数据。

  • 生成数据洞察 - 使用 Data Wrangler 数据洞察和质量报告自动验证数据质量并检测数据中的异常。

  • 分析 - 在我们的流程中的任何时候分析数据集中的特征。Data Wrangler 包括内置的数据可视化工具,如散点图和直方图,以及数据分析工具,如目标泄漏分析和快速建模,以了解特征相关性。

  • 导出 - 将我们的数据准备工作流导出到不同的位置。以下是示例位置:

    • S3存储桶
    • SageMaker 模型构建管道
    • 使用 SageMaker 管道自动化模型部署。我们可以直接将转换后的数据导出到管道中。
    • SageMaker 特征存储 - 在一个集中的存储中存储特征及其数据。
    • Python 脚本 - 将数据及其转换存储在 Python 脚本中,用于我们的自定义工作流。