直方图和散点图

可视化对于理解数据结构很有用,也有助于识别数据趋势,并帮助我们发现数据中的潜在问题(如异常值、缺失值等)。在本节中,我们将分析如何使用Data Wrangler生成数据可视化,而无需编写任何代码。

让我们从分析已取消预订活跃预订的比例开始。

直方图

点击左上角的Data flow链接返回到主页面。

选择Data types步骤旁边的+来创建直方图可视化。

Create analysis:

  • 选择Histogram作为分析类型
  • 选择is_canceled变量作为X轴
  • 单击Save保存此分析。

直方图显示了is_canceled的值范围,分为10个区间:

image-20240903091237381

这为我们提供了有用的信息,但由于我们只会有0或1这两个值,我们需要让系统理解这个值是布尔型的。可以通过将检测到的long数据类型替换为boolean,来创建一个更有用的is_canceled值表示。

更新is_canceled的数据类型

is_canceled数据类型从long更新为boolean:

  • 返回Data flow, 进入Data页面
  • is_canceled列名的类型选择为Boolean
  • 单击Preview,然后单击Update

image-20240903091403668

这将把is_canceled的类型设置为boolean。这将使该列的值变为truefalse,而不是0或1。

使用布尔型的直方图

再次创建直方图可视化。通过对布尔型is_canceled列创建直方图,现在更容易观察到活跃预订比取消预订多约20%。

image-20240903091908445

散点图

让我们创建一个散点图来可视化 lead_time(预订创建和到达日期之间经过的天数)和 adr(平均每日房价)之间的关系

创建分析:

  1. 选择 Scatter Plot 作为分析类型
  2. 对于 X 轴列,选择 lead_time
  3. 对于 Y 轴列,选择 adr

单击 Preview 会产生以下可视化效果。通过单击 Create 按钮保存可视化效果: image-20240903092310646

要获得更详细的视图,请将鼠标悬停在图形上,并使用鼠标滚轮进行缩放。我们还可以拖动视图以获得最佳效果:

image-20240903092349976

我们可以通过使用 arrival_date_year作为 Facet by 选项进一步探索这些数据。

image-20240903092459661

下面显示了放大的可视化效果。 image-20240903092524207