Prepare datasets


title: “准备数据集” weight: 21


本笔记本生成一组描述客户订单随时间变化的关系文件。

我们预设了笔记本,以从总共10,000个合成生成的客户列表中生成100,000个合成杂货订单样本。对于每个客户,笔记本生成1到10个订单,每个订单中包含购买的产品。笔记本还生成每个订单的下单时间戳。

主要要点

  • 我们使用数据目录中提供的产品数据生成合成客户数据和订单数据,然后将这些数据保存为csv文件到本地数据目录。我们利用faker 包来生成假数据。

  • 然后,我们对这些数据进行特征工程,使特征为我们的机器学习过程做好准备,并将这些转换后的特征保存为csv文件到本地目录,以供未来的笔记本使用。

    • 我们删除不需要的特征
    • 我们对某些特征进行一次性编码和标签编码
    • 我们使用Pandas.cut方法对客户年龄进行分箱,将其转换为年龄范围,并使用Scikit-learn的MinMaxScaler类对活跃数据进行缩放

导航到笔记本

  • 导航到主目录amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab目录结构。然后导航到01-module-feature-store-foundations并打开笔记本m1_nb0_prepare_datasets.ipynb

  • 将内核设置为Python 3 (Data Science)并选择实例为ml.t3.medium

  • 通过在每个单元格中按Shift+Enter来执行单元格。代码运行时,方括号之间会出现一个*。几秒钟后,代码执行将完成,*将被一个数字替换。

  • 您可以按照笔记本中的说明继续操作。