SageMaker介绍 > Data Wrangler - I > Data Wrangler架构

Data Wrangler架构

Data Wrangler 是 SageMaker ML 平台的一个组件，下图演示了 SageMaker Studio 的内部工作原理。它显示了 Studio 如何允许我们并行创建和运行多种类型的 ML 实例，为我们提供在这些实例类型中启动容器化内核作为会话的能力。

从图中我们可以看到，Data Wrangler 在 ml.m5.4xlarge 类型的实例中启动。Studio 的 Jupyter 服务器(SageMaker UI 服务器)自动在 ml.t3.medium 实例中启动，这是免费的。我们还可以看到一个 PyTorch 内核 会话在单独的 t3.medium 实例上运行。

使用 Data Wrangler 的 UI 创建的数据预处理或特征工程步骤可以通过 SageMaker Processing 扩展为全面的分布式处理作业。这是 Data Wrangler 提供的几个导出选项之一。当 Data Wrangler 启动一个处理作业时，它会启动一个 ML 实例集群来设置分布式处理作业，这也在图中显示。在图的右侧，我们还描述了客户的 VPC 中如何访问各种 SageMaker 组件。

lifecycle

SageMaker Data Wrangler提供了一个端到端的解决方案，用于导入、准备、转换、特征化和分析数据。我们可以将 Data Wrangler 数据准备流集成到我们的机器学习（ML）工作流中，以简化和优化数据预处理和特征工程，几乎不需要编码。我们还可以添加自己的 Python 脚本和转换来定制工作流。

Data Wrangler 提供以下核心功能来帮助我们分析和准备机器学习应用程序的数据:

导入 - 连接并从S3、Athena、 Redshift、EMR、Snowflake、Databricks 和其他第三方 SAAS 应用程序（如 Slack、ServiceNow 等）导入数据。
数据流 - 创建一个数据流来定义一系列 ML 数据准备步骤。我们可以使用一个流来组合来自不同数据源的数据集，确定要应用于数据集的转换的数量和类型，并定义一个可集成到 ML 管道中的数据准备工作流。
转换 - 使用字符串、向量和数字数据格式化工具等标准转换来清理和转换我们的数据集。使用文本、日期/时间嵌入和分类编码等转换来特征化我们的数据。
生成数据洞察 - 使用 Data Wrangler 数据洞察和质量报告自动验证数据质量并检测数据中的异常。
分析 - 在我们的流程中的任何时候分析数据集中的特征。Data Wrangler 包括内置的数据可视化工具，如散点图和直方图，以及数据分析工具，如目标泄漏分析和快速建模，以了解特征相关性。
导出 - 将我们的数据准备工作流导出到不同的位置。以下是示例位置:
- S3存储桶
- SageMaker 模型构建管道
- 使用 SageMaker 管道自动化模型部署。我们可以直接将转换后的数据导出到管道中。
- SageMaker 特征存储 - 在一个集中的存储中存储特征及其数据。
- Python 脚本 - 将数据及其转换存储在 Python 脚本中，用于我们的自定义工作流。