SageMaker介绍 > Feature Store > Partition datasets

Partition datasets

title: “分割数据集” weight: 51

这是一个简单的 notebook，用于将订单数据分割成批次，这些批次将在本模块的其他 notebook 中用于特征转换和批量导入特征存储。大型原始数据集通常以多个文件而不是一个大文件的形式提供。通过拥有单独的文件，我们可以更轻松地将它们分片到集群实例中。

关键要点

这个 notebook 的主要活动是从本地目录读取原始订单数据，根据年份和月份对其进行分区，并将其保存到 S3 存储桶中。

导航到 notebook

导航到主目录 amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab 目录结构。然后导航到 05-module-scalable-batch-ingestion 并打开 notebook m5_nb0_partition_data.ipynb
将内核设置为 Python 3 (Data Science) 并选择实例为 ml.t3.medium
通过在每个单元格中按 Shift+Enter 来执行单元格。代码运行时，方括号之间会出现一个 。几秒钟后，代码执行将完成， 将被替换为一个数字。
您可以按照 notebook 中的说明继续操作。