标题:启动和导入 权重:30

SageMaker 域设置

Amazon SageMaker 域包括:

  • 关联的 Amazon Elastic File System (Amazon EFS) 卷
  • 授权用户列表
  • 各种安全、应用程序、策略和 Amazon Virtual Private Cloud (VPC) 配置

如果自行进行研讨会

完成先决条件 以设置 SageMaker 域。

如果我们在 AWS 活动中

我们可能已获得 AWS 账户、SageMaker 域和用户。

启动 Data Wrangler

  1. 在 AWS 控制台中转到 SageMaker
确保上面的控制台链接在我们将运行 Data Wrangler 和 SageMaker Studio 的同一区域中打开。

<strong>域</strong> 页面应该出现。

  1. 单击我们的域的名称。如果有多个,请打开最近创建于的那个。

  2. 在用户名旁边,选择启动 -> Studio

我们将被重定向到 SageMaker Studio。

要从 Studio 打开 Data Wrangler,请单击快速操作面板上的导入和可视化地准备数据

Data Wrangler 可能需要几分钟才能首次加载。

接下来出现创建连接屏幕。

默认情况下,当 Data Wrangler 启动时,它在 ml.m5.4xlarge 实例上运行,该实例具有 16 个 vCPU + 64 GiB。如果我们希望提高在 Data Wrangler UI 中执行的可视化、分析和特征转换预览的处理速度,我们可以在屏幕右上角的vCPU + 内存菜单中选择不同的实例类型。

这些 vCPU/内存设置仅应用于 Data Wrangler UI 内的处理。当我们准备操作化和部署在 Data Wrangler UI 中创建的流时,我们将获得选择实例类型和实例数量以运行整个数据集的选项。

我们需要为运行 Data Wrangler 的 EC2 实例时间付费。请确保选择满足我们目标所需的最便宜的实例类型。

要查看我们正在运行的所有实例,我们可以单击左侧边栏 上的正在运行的终端和内核图标。

接下来,我们将把数据导入 Data Wrangler!