SageMaker介绍 > Feature Store > Speed ML Development with Apache Iceberg offline store compaction

Speed ML Development with Apache Iceberg offline store compaction

Here is the translation in Chinese:

title: “利用Apache Iceberg离线存储压缩加速ML开发” weight: 3

在这个笔记本中，您将学习如何使用Amazon Athena和AWS Glue来安排表维护操作(压缩、存储回收)

Apache Iceberg是一种开放的表格式，用于非常大的分析数据集。它将大量文件作为表进行管理，并支持现代分析数据湖操作，如记录级插入、更新、删除和时间旅行查询。

使用Feature Store，您可以创建使用Iceberg表格式的特征组，作为默认标准Glue格式的替代方案。通过这种方式，客户可以利用表格式根据其用例和优化要求使用Iceberg的文件压缩和数据剪枝功能。Iceberg还使客户能够执行删除、时间旅行查询、高并发事务以及提高选择性查询的性能。

通过将Iceberg作为表格式并结合表维护操作(如压缩)相结合，客户将受益于在处理大规模离线特征组时获得更快的查询性能，从而帮助客户更快地构建训练数据集。

注意:本模块依赖于模块1 中准备的数据集和创建的特征组。

关键要点

Feature Store支持Apache Iceberg作为存储特征的表格式。这加速了模型开发，通过利用Iceberg表压缩提高了提取ML训练数据集时的查询性能。根据您的特征组的设计和规模，您可以在使用这个新功能时体验到10倍到100倍的训练查询性能提升。
下图显示了使用Iceberg作为表格式的离线存储结构。

我们将使用Amazon Athena运行压缩。Amazon Athena是一个无服务器SQL查询引擎，原生支持Iceberg管理程序。
我们还将解释如何使用Spark来管理压缩作业和维护方法。
最后，我们将了解如何自动化表管理程序来压缩您的离线特征存储。下图说明了创建使用Iceberg表格式的特征组以及一个完全自动化的表管理解决方案(包括文件压缩和清理操作)的架构。

导航至amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab目录结构的主目录。然后导航到02-module-working-with-offline-store并打开笔记本m2_nb3_offline_iceberg_compaction.ipynb.ipynb
将内核设置为Python 3 (Data Science)，并选择ml.m5.4xlarge实例
通过在每个单元格中按Shift+Enter执行单元格。代码运行时，方括号内会出现一个*。几秒钟后，代码执行将完成，*将被替换为一个数字。
您可以按照笔记本中的说明继续操作。