可视化对于理解数据结构很有用,也有助于识别数据趋势,并帮助我们发现数据中的潜在问题(如异常值、缺失值等)。在本节中,我们将分析如何使用Data Wrangler生成数据可视化,而无需编写任何代码。
让我们从分析已取消预订
与活跃预订
的比例开始。
点击左上角的Data flow链接返回到主页面。
选择Data types步骤旁边的+来创建直方图可视化。
Create analysis:
直方图显示了is_canceled的值范围,分为10个区间:
这为我们提供了有用的信息,但由于我们只会有0或1这两个值,我们需要让系统理解这个值是布尔型的。可以通过将检测到的long数据类型替换为boolean,来创建一个更有用的is_canceled值表示。
将is_canceled数据类型从long更新为boolean:
这将把is_canceled的类型设置为boolean。这将使该列的值变为true或false,而不是0或1。
再次创建直方图可视化。通过对布尔型is_canceled列创建直方图,现在更容易观察到活跃预订比取消预订多约20%。
让我们创建一个散点图来可视化 lead_time(预订创建和到达日期之间经过的天数)和 adr(平均每日房价)之间的关系
创建分析:
单击 Preview 会产生以下可视化效果。通过单击 Create 按钮保存可视化效果:
要获得更详细的视图,请将鼠标悬停在图形上,并使用鼠标滚轮进行缩放。我们还可以拖动视图以获得最佳效果:
我们可以通过使用 arrival_date_year
作为 Facet by 选项进一步探索这些数据。
下面显示了放大的可视化效果。