下载原始数据

在本节,我们将下载 OpenRTB 原始数据,稍后用它来生成机器学习的训练数据。

我们使用Kaggle上公开的数据集,为了访问数据,需要一个 kaggle 的免费帐户。如果您目前还没有,可以在kaggle 网站上创建一个

我们将通过 kaggle 提供的 API 访问数据,该 API 由 API 密钥保护。可以按照Kaggle API 文档 中所述创建密钥:

image-20240202095308979

点击Create New Token后,将自动下载一个json文件,里面是用户名+密钥。

准备好所有这些后,让我们进入到1_download_ipinyou_data_tos3.ipynb Notebook,同样选择Data Science内核:

S3存储桶的内容

在Notebook下载数据

我们将使用 kaggle API,而不是手动将数据从网页下载到本地计算机。为此,我们使用 python 库opendatasets ,这使我们能够轻松地与 Kaggle 和其他开放数据提供商进行交互。

数据集将首先存储在 SageMaker Studio的本地文件系统中,然后Notebook将其存储在 Amazon S3 上,我们将在后面中访问它。

执行Notebook的所有Cell,完成后,可以验证原始数据是否已存储:

import os
import boto3

session = boto3.Session() 
ssm = session.client('ssm')

download_url = ssm.get_parameter(Name="/aik/download_url")["Parameter"]["Value"]
raw_data = ssm.get_parameter(Name="/aik/raw_data")["Parameter"]["Value"]

import opendatasets as od

od.download(download_url)

在执行od.download时,需要先输入Kaggle上的用户名,再输入Token:

image-20240202095622705

最后数据被上传到S3的/raw/ipinyou-data下面:

image-20240202100229167

image-20240202220229282