标题: “02 - 导入数据” 权重: 03
在我们开始导入之前上传到S3存储桶的行程数据集之前,第一步是创建一个.flow
文件,它将启动一个新的Data Wrangler会话。有多种方法可以实现这一点。例如,我们可以从文件菜单创建一个新的Data Wrangler流,如下图所示:选择文件 → 新建 → Data Wrangler流。
创建流文件后,Amazon SageMaker将开始配置所需的计算资源来启动Data Wrangler。我们可以在文件浏览器部分找到新创建的Data Wrangler流文件,如下所示。
让我们重命名我们的新流:右键单击文件 → 重命名Data Wrangler流
输入新名称,例如: TS-Workshop-DataPreparation.flow
几分钟后,Data Wrangler将完成配置计算资源并带我们进入"导入数据"屏幕。
Data Wrangler支持许多数据源:Amazon S3、Amazon Athena、Amazon Redshift、Snowflake、Databricks。
由于我们的数据已经上传到S3,让我们通过单击"Amazon S3"按钮来导入它。
在这里,我们可以滚动浏览我们有权访问的所有S3资源。选择我们在研讨会开始时创建的存储桶。
本实验所需的所有文件都在"trip data"文件夹中,所以让我们选择它。Data Wrangler将导入文件夹中的所有文件,并对最多100 MB的数据进行采样以进行交互式预览。在右侧菜单中,我们可以自定义导入作业设置,如名称、文件类型、分隔符等。有关导入过程的更多信息可以在这里 找到。
要完成导入步骤的设置,请按如下所示按橙色按钮 - “导入”。
导入所有数据并验证它需要几分钟时间。Data Wrangler将自动识别导入数据列(原始特征)的数据类型。完成后,我们将看到"验证完成,0个错误"消息,如下图所示。