在本节,我们将下载 OpenRTB 原始数据,稍后用它来生成机器学习的训练数据。
我们使用Kaggle上公开的数据集,为了访问数据,需要一个 kaggle 的免费帐户。如果您目前还没有,可以在kaggle 网站上创建一个 。
我们将通过 kaggle 提供的 API 访问数据,该 API 由 API 密钥保护。可以按照Kaggle API 文档 中所述创建密钥:
点击Create New Token
后,将自动下载一个json文件,里面是用户名+密钥。
准备好所有这些后,让我们进入到1_download_ipinyou_data_tos3.ipynb
Notebook,同样选择Data Science
内核:
我们将使用 kaggle API,而不是手动将数据从网页下载到本地计算机。为此,我们使用 python 库opendatasets ,这使我们能够轻松地与 Kaggle 和其他开放数据提供商进行交互。
数据集将首先存储在 SageMaker Studio的本地文件系统中,然后Notebook将其存储在 Amazon S3 上,我们将在后面中访问它。
执行Notebook的所有Cell,完成后,可以验证原始数据是否已存储:
import os
import boto3
session = boto3.Session()
ssm = session.client('ssm')
download_url = ssm.get_parameter(Name="/aik/download_url")["Parameter"]["Value"]
raw_data = ssm.get_parameter(Name="/aik/raw_data")["Parameter"]["Value"]
import opendatasets as od
od.download(download_url)
在执行od.download
时,需要先输入Kaggle上的用户名,再输入Token:
最后数据被上传到S3的/raw/ipinyou-data
下面: