title: “准备数据集” weight: 21
本笔记本生成一组描述客户订单随时间变化的关系文件。
我们预设了笔记本,以从总共10,000个合成生成的客户列表中生成100,000个合成杂货订单样本。对于每个客户,笔记本生成1到10个订单,每个订单中包含购买的产品。笔记本还生成每个订单的下单时间戳。
我们使用数据目录中提供的产品数据生成合成客户数据和订单数据,然后将这些数据保存为csv文件到本地数据目录。我们利用faker
包来生成假数据。
然后,我们对这些数据进行特征工程,使特征为我们的机器学习过程做好准备,并将这些转换后的特征保存为csv文件到本地目录,以供未来的笔记本使用。
导航到主目录amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab目录结构。然后导航到01-module-feature-store-foundations并打开笔记本m1_nb0_prepare_datasets.ipynb
将内核设置为Python 3 (Data Science)并选择实例为ml.t3.medium
通过在每个单元格中按Shift+Enter来执行单元格。代码运行时,方括号之间会出现一个*。几秒钟后,代码执行将完成,*将被一个数字替换。
您可以按照笔记本中的说明继续操作。