Amazon SageMaker 域包括:
完成先决条件 以设置 SageMaker 域。
我们可能已获得 AWS 账户、SageMaker 域和用户。
确保上面的控制台链接在我们将运行 Data Wrangler 和 SageMaker Studio 的同一区域中打开。
<strong>域</strong> 页面应该出现。
单击我们的域的名称。如果有多个,请打开最近创建于的那个。
在用户名旁边,选择启动 -> Studio。
我们将被重定向到 SageMaker Studio。
要从 Studio 打开 Data Wrangler,请单击快速操作面板上的导入和可视化地准备数据。
Data Wrangler 可能需要几分钟才能首次加载。
接下来出现创建连接屏幕。
默认情况下,当 Data Wrangler 启动时,它在 ml.m5.4xlarge 实例上运行,该实例具有 16 个 vCPU + 64 GiB。如果我们希望提高在 Data Wrangler UI 中执行的可视化、分析和特征转换预览的处理速度,我们可以在屏幕右上角的vCPU + 内存菜单中选择不同的实例类型。
这些 vCPU/内存设置仅应用于 Data Wrangler UI 内的处理。当我们准备操作化和部署在 Data Wrangler UI 中创建的流时,我们将获得选择实例类型和实例数量以运行整个数据集的选项。
我们需要为运行 Data Wrangler 的 EC2 实例时间付费。请确保选择满足我们目标所需的最便宜的实例类型。
要查看我们正在运行的所有实例,我们可以单击左侧边栏 上的正在运行的终端和内核图标。
接下来,我们将把数据导入 Data Wrangler!