SageMaker介绍 > Data Wrangler - I > 直方图和散点图

直方图和散点图

可视化对于理解数据结构很有用，也有助于识别数据趋势，并帮助我们发现数据中的潜在问题(如异常值、缺失值等)。在本节中，我们将分析如何使用Data Wrangler生成数据可视化，而无需编写任何代码。

让我们从分析已取消预订与活跃预订的比例开始。

点击左上角的Data flow链接返回到主页面。

选择Data types步骤旁边的+来创建直方图可视化。

Create analysis:

直方图显示了is_canceled的值范围，分为10个区间：

这为我们提供了有用的信息，但由于我们只会有0或1这两个值，我们需要让系统理解这个值是布尔型的。可以通过将检测到的long数据类型替换为boolean，来创建一个更有用的is_canceled值表示。

将is_canceled数据类型从long更新为boolean:

这将把is_canceled的类型设置为boolean。这将使该列的值变为true或false，而不是0或1。

再次创建直方图可视化。通过对布尔型is_canceled列创建直方图，现在更容易观察到活跃预订比取消预订多约20%。

让我们创建一个散点图来可视化 lead_time（预订创建和到达日期之间经过的天数）和 adr（平均每日房价）之间的关系

创建分析：

单击 Preview 会产生以下可视化效果。通过单击 Create 按钮保存可视化效果:

要获得更详细的视图，请将鼠标悬停在图形上，并使用鼠标滚轮进行缩放。我们还可以拖动视图以获得最佳效果:

我们可以通过使用 arrival_date_year作为 Facet by 选项进一步探索这些数据。

下面显示了放大的可视化效果。