Here is the translation in Chinese:
title: “利用Apache Iceberg离线存储压缩加速ML开发” weight: 3
在这个笔记本中,您将学习如何使用Amazon Athena和AWS Glue来安排表维护操作(压缩、存储回收)
Apache Iceberg是一种开放的表格式,用于非常大的分析数据集。它将大量文件作为表进行管理,并支持现代分析数据湖操作,如记录级插入、更新、删除和时间旅行查询。
使用Feature Store,您可以创建使用Iceberg表格式的特征组,作为默认标准Glue格式的替代方案。通过这种方式,客户可以利用表格式根据其用例和优化要求使用Iceberg的文件压缩和数据剪枝功能。Iceberg还使客户能够执行删除、时间旅行查询、高并发事务以及提高选择性查询的性能。
通过将Iceberg作为表格式并结合表维护操作(如压缩)相结合,客户将受益于在处理大规模离线特征组时获得更快的查询性能,从而帮助客户更快地构建训练数据集。
注意:本模块依赖于模块1 中准备的数据集和创建的特征组。
Feature Store支持Apache Iceberg作为存储特征的表格式。这加速了模型开发,通过利用Iceberg表压缩提高了提取ML训练数据集时的查询性能。根据您的特征组的设计和规模,您可以在使用这个新功能时体验到10倍到100倍的训练查询性能提升。
下图显示了使用Iceberg作为表格式的离线存储结构。
我们将使用Amazon Athena运行压缩。Amazon Athena是一个无服务器SQL查询引擎,原生支持Iceberg管理程序。
我们还将解释如何使用Spark来管理压缩作业和维护方法。
最后,我们将了解如何自动化表管理程序来压缩您的离线特征存储。下图说明了创建使用Iceberg表格式的特征组以及一个完全自动化的表管理解决方案(包括文件压缩和清理操作)的架构。
导航至amazon-sagemaker-feature-store-end-to-end-workshop Jupyter Lab目录结构的主目录。然后导航到02-module-working-with-offline-store并打开笔记本m2_nb3_offline_iceberg_compaction.ipynb.ipynb
将内核设置为Python 3 (Data Science),并选择ml.m5.4xlarge实例
通过在每个单元格中按Shift+Enter执行单元格。代码运行时,方括号内会出现一个*。几秒钟后,代码执行将完成,*将被替换为一个数字。
您可以按照笔记本中的说明继续操作。