title: “Apache Spark 处理器” weight: 53
在本笔记本中,我们编写 PySpark 脚本将原始数据转换为特征,并将特征摄取到特征商店中,并将其作为 SageMaker 处理作业执行。
我们编写 PySpark 脚本文件,使用 SageMaker Python SDK 中的摄取 API 将数据摄取到特征商店中。
Spark 的优势在于分布式处理,因此我们将 Spark 数据帧分区为多个分区,以并行化特征摄取。
然后,我们将脚本输入到 Spark 处理作业中。SageMaker Processing 会负责配置运行作业所需的集群资源,并在作业完成后进行清理。
导航到 amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab 目录结构的主目录。然后导航到 05-module-scalable-batch-ingestion 并打开笔记本 m5_nb2_sm_processing_pyspark.ipynb
将内核设置为 Python 3 (Data Science),并选择实例 ml.t3.medium
通过在每个单元格中按 Shift+Enter 来执行单元格。代码运行时,方括号之间会出现 。几秒钟后,代码执行将完成, 将被替换为一个数字。
您可以按照笔记本中的说明继续操作。