Apache Spark processor


title: “Apache Spark 处理器” weight: 53


在本笔记本中,我们编写 PySpark 脚本将原始数据转换为特征,并将特征摄取到特征商店中,并将其作为 SageMaker 处理作业执行。

关键要点

  • 我们编写 PySpark 脚本文件,使用 SageMaker Python SDK 中的摄取 API 将数据摄取到特征商店中。

  • Spark 的优势在于分布式处理,因此我们将 Spark 数据帧分区为多个分区,以并行化特征摄取。

  • 然后,我们将脚本输入到 Spark 处理作业中。SageMaker Processing 会负责配置运行作业所需的集群资源,并在作业完成后进行清理。

导航至笔记本

  • 导航到 amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab 目录结构的主目录。然后导航到 05-module-scalable-batch-ingestion 并打开笔记本 m5_nb2_sm_processing_pyspark.ipynb

  • 将内核设置为 Python 3 (Data Science),并选择实例 ml.t3.medium

  • 通过在每个单元格中按 Shift+Enter 来执行单元格。代码运行时,方括号之间会出现 。几秒钟后,代码执行将完成, 将被替换为一个数字。

  • 您可以按照笔记本中的说明继续操作。