附: 在SparkMagic上安装库

打开Notebook并确保内核设置为SparkMagic PySpark

image-20240203141726192

可以通过运行以下命令检查当前笔记本会话配置:

%%info

将得到以下输出:

image-20240203134416920

安装库

检查EMR集群上已有的库。使用 list_packages() PySpark API 来执行此操作,该 API 列出了集群上的所有 Python 库:

sc.list_packages()

获得类似于以下代码的输出,显示集群上所有可用的 Python 3 兼容库:

image-20240203134629381

里面没有selenium库,可以使用 install_pypi_package API 将它们安装在EMR集群上:

image-20240203142103112

其他安装库的语法:

sc.install_pypi_package("pandas==0.25.1") #Install pandas version 0.25.1 
sc.install_pypi_package("matplotlib", "https://pypi.org/simple") #Install matplotlib from given PyPI repository

再次执行sc.list_packages(),将看到selenium被安装上去:

image-20240203142215135

PySpark install_pypi_packageAPI 会安装所需的库以及关联的依赖项。默认情况下,它会安装与正在使用的 Python 版本兼容的最新版本的库。还可以通过指定前面的 Pandas 示例中的库版本来安装特定版本的库。

使用uninstall_packagePyspark API 卸载使用该install_packageAPI 安装的库。当想要使用之前通过Notebooks 安装的库的不同版本时,这非常有用:

sc.uninstall_package('selenium')

将得到以下输出:

image-20240203142401232

关闭笔记本后,使用install_pypi_packageAPI 在集群上安装的 Pandas 和 Matplot 库将成为垃圾并从集群中收集。

其他Magic语法

本地执行bash命令,使用%%sh%%bash

image-20240203142541248

image-20240203142642596

查看本地所有的python包:

image-20240203142618459

查看所有magic命令:

image-20240203142720577

其他命令参考: https://ipython.readthedocs.io/en/stable/interactive/magics.html

https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-studio-magics.html#accessing-all-magic-commands