标题: “时间序列实验室” 权重: 360
此内容涉及SageMaker Studio Classic 低代码ML体验。如果我们正在寻找更新的内容和/或我们正在使用新的SageMaker Studio体验 ,请参考SageMaker Canvas沉浸式日 。
时间序列数据在我们的生活中广泛存在。股票价格、房价、天气信息和随时间捕获的销售数据只是几个例子。随着企业越来越多地寻求从时间序列数据中获取有意义的见解,可视化数据和应用所需转换是基本步骤。然而,时间序列数据与其他类型的表格数据相比具有独特的特征和细微差别,需要特殊考虑。例如,标准的表格或横截面数据是在特定时间点收集的。相反,时间序列数据是重复地随时间捕获的,每个连续的数据点都依赖于其过去的值。
由于大多数时间序列分析依赖于连续一组观测值收集的信息,缺失数据和固有的稀疏性可能会降低预测的准确性并引入偏差。此外,大多数时间序列分析方法依赖于数据点之间的等间距,换句话说,就是周期性。因此,修复数据间距不规则性的能力是先决条件。最后,时间序列分析通常需要创建额外的特征,这些特征可以帮助解释输入数据和未来预测之间的固有关系。所有这些因素都使时间序列项目与传统机器学习(ML)场景有所不同,并要求采取不同的分析方法。
本实验室演示了如何使用SageMaker Data Wrangler进行时间序列数据的数据准备和特征工程。
Data Wrangler提供了一个低代码的时间序列分析解决方案,具有准备和转换数据的功能。它还使数据科学家能够根据其预测模型的输入格式要求来准备时间序列数据。以下是我们可以利用这些功能的一些方式:
描述性分析 – 通常,任何数据科学项目的第一步都是了解数据。当我们绘制时间序列数据时,我们可以获得其模式的高级概览,如趋势、季节性、周期和随机变化。这有助于我们决定正确的预测方法来准确地表示这些模式。绘图还可以帮助识别异常值,防止不现实和不准确的预测。Data Wrangler附带了季节性-趋势分解可视化,用于表示时间序列的组成部分,以及异常值检测可视化,用于识别异常值。
解释性分析 – 对于多变量时间序列,探索、识别和建模两个或多个时间序列之间的关系对于获得有意义的预测至关重要。Data Wrangler中的"按组"转换通过对指定单元格进行分组来创建多个时间序列。此外,Data Wrangler时间序列转换(在适用的情况下)允许指定其他ID列进行分组,从而实现复杂的时间序列分析。
数据准备和特征工程 – 时间序列数据很少以时间序列模型所期望的格式存在。它通常需要数据准备来将原始数据转换为特定于时间序列的特征。我们可能希望在分析之前验证时间序列数据是否定期或等间距。对于预测用例,我们还可能希望纳入其他时间序列特征,如自相关和统计属性。使用Data Wrangler,我们可以快速创建时间序列特征,如多个滞后期的滞后列、重采样数据到多个时间粒度和自动提取时间序列的统计属性等功能。
我们本实验室的最终目标是准备一个时间序列数据集,并使其达到机器学习建模的就绪状态。我们将从纽约市(NYC)黄色出租车时间序列数据集开始,探索、准备和转换数据集,以帮助我们设计一个机器学习模型,该模型将预测任何一天和任何位置的NYC黄色出租车的接客数量。作为练习的一部分,我们将学习如何获得有关行程的各种见解,如平均小费值、平均行程距离等。黄色出租车或黄色牌照出租车是著名的NYC黄色出租车,它们通过街头拦截提供独家交通服务。出租车的数量受到纽约市出租车和租车委员会(TLC)发放的有限牌照数量的限制。出租车牌照是美国可转让的许可证,允许出租车司机运营。我们可以通过站在街上用手招呼来获取这种交通工具。接客是非预约的。