Data Wrangler - I

数据准备一直被认为是乏味和资源密集型的,这是由于数据本质上是"脏"的,在原始形式下并不适合机器学习。“脏"数据可能包括缺失或错误的值、异常值等。通常需要进行特征工程来转换输入,以提供更准确和高效的 ML 模型。2016 年,福布斯做了一项调查,结果显示 ML 工程团队约 80% 的时间都花在准备数据上。虽然独立的数据准备工具已经得到了广泛的应用,但数据准备仍然是乏味、耗时和复杂的。

数据准备通常需要多个步骤。虽然大多数"独立的数据准备工具"提供数据转换、特征工程和可视化,但很少有工具提供内置的模型验证。而且所有这些数据准备步骤都被认为是独立于机器学习的。我们需要的是一个框架,它在一个地方提供所有这些功能,并与机器学习管道的其余部分紧密集成。

大多数独立的数据准备工具将其视为 ETL 工作负载,这使得迭代准备数据、在测试数据集上验证模型、将其部署到生产环境中以及返回到摄取新数据源并执行额外的特征工程变得乏味。大多数迭代数据准备与部署是分离的。因此,数据准备模块需要在部署到生产环境之前进行管理和集成。因此,它们不适合机器学习的 DevOps 实践,有时也称为 ML Ops。

最后,大多数 ML 工程团队需要编写代码来完成机器学习所需的常见数据准备任务,或者需要与由其他组织管理的独立 ETL 框架进行集成。

Data Wrangler

SageMaker Data Wrangler 可以将机器学习(ML)数据准备的时间从数周缩短到几分钟。使用 SageMaker Data Wrangler,我们可以简化数据准备和特征工程的过程,并从单一的可视化界面完成数据准备工作流的每个步骤,包括数据选择、清洗、探索和可视化。使用 SageMaker Data Wrangler 的数据选择工具,我们可以从各种数据源中选择所需的数据,并一键导入。

数据导入后,我们可以使用数据质量和洞察报告自动验证数据质量,并检测异常,如重复行和目标泄露。SageMaker Data Wrangler 包含 300 多种内置数据转换,因此我们可以快速规范化、转换和组合特征,而无需编写任何代码。使用 SageMaker Data Wrangler 的可视化模板,我们可以快速预览和检查这些转换是否按预期完成,方法是在 SageMaker Studio 中查看它们,这是机器学习的第一个完全集成的开发环境(IDE)。一旦我们的数据准备就绪,我们就可以使用 SageMaker Pipelines 构建完全自动化的 ML 工作流,并将其保存以在 SageMaker Feature Store 中重复使用。