SageMaker介绍 > Feature Store > Apache Spark processor

Apache Spark processor

title: “Apache Spark 处理器” weight: 53

在本笔记本中，我们编写 PySpark 脚本将原始数据转换为特征，并将特征摄取到特征商店中，并将其作为 SageMaker 处理作业执行。

关键要点

我们编写 PySpark 脚本文件，使用 SageMaker Python SDK 中的摄取 API 将数据摄取到特征商店中。
Spark 的优势在于分布式处理，因此我们将 Spark 数据帧分区为多个分区，以并行化特征摄取。
然后，我们将脚本输入到 Spark 处理作业中。SageMaker Processing 会负责配置运行作业所需的集群资源，并在作业完成后进行清理。

导航至笔记本

导航到 amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab 目录结构的主目录。然后导航到 05-module-scalable-batch-ingestion 并打开笔记本 m5_nb2_sm_processing_pyspark.ipynb
将内核设置为 Python 3 (Data Science)，并选择实例 ml.t3.medium
通过在每个单元格中按 Shift+Enter 来执行单元格。代码运行时，方括号之间会出现 。几秒钟后，代码执行将完成， 将被替换为一个数字。
您可以按照笔记本中的说明继续操作。