08 - Quick Analysis


标题:“08 - 快速分析” 权重:10


Amazon SageMaker Data Wrangler包含内置分析功能,可帮助我们通过几次点击生成可视化和数据洞见。我们可以利用我们提供的内置分析类型,也可以在需要时使用自己的代码创建自定义分析。Data Wrangler还提供自动洞见,通过在后台对我们的数据执行探索性和描述性分析,自动识别隐藏的异常和红旗,并提出可应用于数据列的转换措施来解决这些问题。

对于这个实验,让我们使用表格摘要内置分析类型快速总结我们现有的数据集。对于包括长整型和浮点型数据在内的数值列,表格摘要报告每列的条目数(count)、最小值(min)、最大值(max)、平均值和标准差(stddev)。对于包括字符串、布尔或日期时间数据在内的非数值列,表格摘要报告条目数(count)、最小频率值(min)和最大频率值(max)。

要创建此分析,请按照以下步骤操作:

  • 单击一组转换元素旁边的加号,然后选择"添加分析”。

  • 在"分析类型"下拉菜单中选择"表格摘要”,并为"分析名称"提供一个名称,例如:“已清理数据集摘要”

  • 选择预览。

  • 选择添加以保存分析。

  • 我们将在"分析"选项卡上找到我们创建的第一个分析。所有未来的可视化效果也将在那里找到。

  • 单击分析图标打开它。

让我们看看我们的结果。最有趣的部分是duration列的摘要:最大值为954,单位为分钟!954分钟=近15小时,这绝对是一个问题,如果在当前形式下使用这个数据集,将会降低模型的质量。这看起来更像是由于数据集中存在大量异常值造成的问题。接下来,让我们看看如何使用Data Wrangler提供的内置转换来解决这个问题。

单击"返回数据流"以返回到块图编辑器窗口。