导出 Data Wrangler Flow

当进行导出时,在 Data Wrangler Flow中定义的transform将应用于源数据集,并写入选择的目标位置。

可以通过两种方式导出转换:

通过”Export“功能以编程方式导出,或通过”Create Job“功能以交互方式导出。

交互式导出

Data Wrangler支持通过"create job"按钮将Data Wrangler flow导出到S3或feature store。

要使用"create job"导出data flow,需要创建destination node和一个Data Wrangler作业来导出数据。创建Data Wrangler作业会启动一个SageMaker处理作业来导出我们的flow。

创建destination

创建一个destination node:

  1. 单击我们希望导出的节点上的"+”。所有在该节点之前、包括该节点在内的transform都将包含在导出中。
  2. 选择"Add destination”。

image-20240906155013552

“Add a destination"面板出现在右侧。输入dataset name导出到的S3位置。保留其他所有内容默认,然后单击Add

image-20240906155248769

我们将看到创建的destination node:

image-20240906155335491

创建处理作业

单击"export”:

image-20240906155540256

image-20240906155607653

等待导出任务完成,并复制下s3路径:

image-20240906155712540

到s3中下载导出的文件,里面是添加完transform之后的结果:

image-20240906160031697