title: “分割数据集” weight: 51
这是一个简单的 notebook,用于将订单数据分割成批次,这些批次将在本模块的其他 notebook 中用于特征转换和批量导入特征存储。大型原始数据集通常以多个文件而不是一个大文件的形式提供。通过拥有单独的文件,我们可以更轻松地将它们分片到集群实例中。
导航到主目录 amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab 目录结构。然后导航到 05-module-scalable-batch-ingestion 并打开 notebook m5_nb0_partition_data.ipynb
将内核设置为 Python 3 (Data Science) 并选择实例为 ml.t3.medium
通过在每个单元格中按 Shift+Enter 来执行单元格。代码运行时,方括号之间会出现一个 。几秒钟后,代码执行将完成, 将被替换为一个数字。
您可以按照 notebook 中的说明继续操作。