本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 SageMaker Spark for Python (PySpark) 示例的资源
亚马逊 SageMaker 提供了一个 Apache Spark Python 库 (SageMaker PySpark
下载 PySpark
你可以从 Spark GitHub 存储库中下载 Python Spark (PySpark) 和 Scala 库的SageMaker 源代码。
有关安装 SageMaker Spark 库的说明,请使用以下任一选项或访问SageMaker PySpark
-
使用 pip 进行安装:
pip install sagemaker_pyspark
-
从源代码安装:
git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
-
您还可以在使用
Sparkmagic (PySpark)
或Sparkmagic (PySpark3)
内核的笔记本实例中创建新的笔记本并连接到远程 Amazon EMR 集群。注意
Amazon EMR 集群必须配置一个附加了
AmazonSageMakerFullAccess
策略的IAM角色。有关为EMR集群配置角色的信息,请参阅IAM《亚马逊EMR管理指南》中的为亚马逊 AWS 服务EMR权限配置角色。
PySpark 例子
有关使用的示例 SageMaker PySpark,请参阅:
-
在 “阅读文档” 中将@@ 亚马逊 SageMaker 与 Apache Spark 配合使用
。 -
SageMaker 火花
GitHub存储库。
要在笔记本实例上运行笔记本,请参阅访问示例笔记本。要在 Studio 上运行笔记本,请参阅创建或打开 Amazon SageMaker Studio 经典笔记本电脑。