Partition datasets


title: “分割数据集” weight: 51


这是一个简单的 notebook,用于将订单数据分割成批次,这些批次将在本模块的其他 notebook 中用于特征转换和批量导入特征存储。大型原始数据集通常以多个文件而不是一个大文件的形式提供。通过拥有单独的文件,我们可以更轻松地将它们分片到集群实例中。

关键要点

  • 这个 notebook 的主要活动是从本地目录读取原始订单数据,根据年份和月份对其进行分区,并将其保存到 S3 存储桶中。

导航到 notebook

  • 导航到主目录 amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab 目录结构。然后导航到 05-module-scalable-batch-ingestion 并打开 notebook m5_nb0_partition_data.ipynb

  • 将内核设置为 Python 3 (Data Science) 并选择实例为 ml.t3.medium

  • 通过在每个单元格中按 Shift+Enter 来执行单元格。代码运行时,方括号之间会出现一个 。几秒钟后,代码执行将完成, 将被替换为一个数字。

  • 您可以按照 notebook 中的说明继续操作。