教程: 入门Amazon EMR - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程: 入门Amazon EMR

Overview

借助 Amazon EMR,您可以设置一个集群,以便在几分钟内使用大数据框架处理和分析数据。本教程介绍如何使用 Spark 启动示例集群,以及如何运行您将存储在 Amazon S3 存储桶中的简单 PySpark 脚本。它包含三个主要工作流程类别的基本 Amazon EMR 任务:计划、配置、管理和清理。您还可以针对自己的工作负载调整此流程。


				Amazon EMR 的工作流程图表,概述了“计划”、“配置”、“管理和清除”三个主要工作流程类别。

Prerequisites

  • 在启动 Amazon EMR 集群之前,请确保完成设置 Amazon EMR中的任务。

在学习本教程时,您将找到指向更详细的主题的链接,以及有关 后续步骤 部分中的其他步骤的想法。如果您有任何疑问或遇到困难,请联系我们的Amazon EMR开发论坛上的 团队。

Cost

  • 您创建的示例集群将在实际环境中运行。该集群将产生最低费用,并且仅在此教程的持续期间内运行,只要您完成清理任务即可。费用按 Amazon EMR 定价的每秒费率收取,因区域而异。有关更多信息,请参阅 Amazon EMR 定价.

  • 在 Amazon S3 中存储用于本教程的小型文件也可能会产生最低费用。如果您超出 Amazon S3 免费套餐的使用限制,AWS 的部分或所有费用可能会豁免。有关更多信息,请参阅 Amazon S3 定价AWS 免费套餐.

步骤 1:计划和配置 Amazon EMR 集群

在此步骤中,您将计划并启动一个安装了 Apache Spark 的简单 Amazon EMR 集群。设置过程包括创建 Amazon S3 存储桶以存储示例 PySpark 脚本、输入数据集和集群输出。

为集群输入和输出准备存储

创建 Amazon S3 存储桶以存储示例 PySpark 脚本、输入数据和输出数据。在计划启动 Amazon EMR 集群的同一 AWS 区域中创建存储桶。例如,美国西部(俄勒冈)us-west-2。与 Amazon EMR 结合使用的存储桶和文件夹具有以下限制:

  • 名称只能由小写字母、数字、句点 (.) 和连字符 (-) 组成。

  • 名称不能以数字结尾。

  • 存储桶名称在所有 AWS 账户中必须是唯一的

  • 输出文件夹必须为空。

要为本教程创建存储桶,请参阅 控制台用户指南 中的如何创建 S3 存储桶?Amazon Simple Storage Service。

开发和准备 Amazon EMR 应用程序

在此步骤中,您将示例 PySpark 脚本上传到 Amazon S3。这是为 Amazon EMR 准备应用程序的最常见方法。利用 EMR,您可以在向集群提交工作时指定脚本的 Amazon S3 位置。您还将示例输入数据上传到 Amazon S3 以供 PySpark 脚本处理。

我们提供了以下 PySpark 脚本以供您使用。该脚本将处理食品制作检查数据,并输出一个文件,其中列出在您的 S3 存储桶中具有最多“红色”类型违规的前 10 个制作。

准备 EMR 的示例 PySpark 脚本

  1. 将以下示例代码复制到所选编辑器中的新文件中。

  2. 将该文件保存为 health_violations.py.

  3. health_violations.py 上传到 Amazon S3 到您为本教程指定的存储桶。有关如何将对象上传到 Amazon S3 的信息,请参阅 Amazon Simple Storage Service 入门指南 中的将对象上传到存储桶

import argparse from pyspark.sql import SparkSession def calculate_red_violations(data_source, output_uri): """ Processes sample food establishment inspection data and queries the data to find the top 10 establishments with the most Red violations from 2006 to 2020. :param data_source: The URI where the food establishment data CSV is saved, typically an Amazon S3 bucket, such as 's3://DOC-EXAMPLE-BUCKET/food-establishment-data.csv'. :param output_uri: The URI where the output is written, typically an Amazon S3 bucket, such as 's3://DOC-EXAMPLE-BUCKET/restaurant_violation_results'. """ with SparkSession.builder.appName("Calculate Red Health Violations").getOrCreate() as spark: # Load the restaurant violation CSV data if data_source is not None: restaurants_df = spark.read.option("header", "true").csv(data_source) # Create an in-memory DataFrame to query restaurants_df.createOrReplaceTempView("restaurant_violations") # Create a DataFrame of the top 10 restaurants with the most Red violations top_red_violation_restaurants = spark.sql("SELECT name, count(*) AS total_red_violations " + "FROM restaurant_violations " + "WHERE violation_type = 'RED' " + "GROUP BY name " + "ORDER BY total_red_violations DESC LIMIT 10 ") # Write the results to the specified output URI top_red_violation_restaurants.write.option("header", "true").mode("overwrite").csv(output_uri) if __name__ == "__main__": parser = argparse.ArgumentParser() parser.add_argument( '--data_source', help="The URI where the CSV restaurant data is saved, typically an S3 bucket.") parser.add_argument( '--output_uri', help="The URI where output is saved, typically an S3 bucket.") args = parser.parse_args() calculate_red_violations(args.data_source, args.output_uri)

输入参数

在以步骤形式运行 PySpark 脚本时,您必须包含以下参数的值。

  • --data_source – 食品制作数据 CSV 文件的 Amazon S3 URI。您将准备下面的文件。

  • --output_uri – 将保存输出结果的 Amazon S3 存储桶的 URI。

输入数据是公开发布的食品制作检查数据集的修改版本,在华盛顿州运行状况部门检查结果位置,数据从 2007 年到 2020 年 有关更多信息,请参阅 King County Open Data: Feedback Inspection Data。以下是数据集中的示例行。

name, inspection_result, inspection_closed_business, violation_type, violation_points 100 LB CLAM, Unsatisfactory, FALSE, BLUE, 5 100 PERCENT NUTRICION, Unsatisfactory, FALSE, BLUE, 5 7-ELEVEN #2361-39423A, Complete, FALSE, , 0

准备 EMR 的示例输入数据

  1. 下载 zip 文件 Contracy_definitionment_data.zip

  2. 解压缩内容并将其作为 保存在本地。food_establishment_data.csv.

  3. 将 CSV 文件上传到您为本教程创建的 S3 存储桶。有关分步说明,请参阅 控制台用户指南 中的如何将文件和文件夹上传到 S3 存储桶?Amazon Simple Storage Service。

有关为 EMR 设置数据的更多信息,请参阅Prepare Input Data

启动 Amazon EMR 集群

现在,您已完成准备工作,您可以使用最新的 Amazon EMR 版本启动安装了 Apache Spark 的示例集群。

注意

如果您的 AWS 账户是在 2013 年 12 月 4 日之后创建的,则当未指定任何内容时,Amazon EMR 会在选定区域的默认 Amazon Virtual Private Cloud (VPC) 中设置一个集群。

Console

使用 Quick Options (快速选项) 启动安装了 Spark 的集群

  1. 登录 AWS 管理控制台并通过以下网址打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 选择 Create cluster (创建集群) 以打开 Quick Options wizard (快速选项向导)

  3. Create Cluster - Quick Options 页面上,记下 ReleaseInstance typeNumber of instancesPermissions 的默认值。这些字段使用为通用集群选择的值自动填充。有关 Quick Options (快速选项) 配置设置的更多信息,请参阅“Quick Options (快速选项)”摘要

  4. 更改以下字段:

    • 输入 Cluster name (集群名称) 以帮助您标识集群。例如,My First EMR Cluster.

    • Logging (日志记录) 保留为启用状态,但将 S3 folder (S3 文件夹) 值替换为您创建的 Amazon S3 存储桶,后跟 /logs。例如,s3://DOC-EXAMPLE-BUCKET/logs。这将在存储桶中创建一个名为“logs”的新文件夹,EMR 将复制集群的日志文件。

    • Applications (应用程序) 下,选择 Spark 选项。 快速选项允许您从要在集群上安装的最常见应用程序组合中进行选择。

    • Security and access (安全与访问) 下,选择您在中指定的或创建的 EC2 key pair (EC2 密钥对)为 SSH 创建 Amazon EC2 密钥对

  5. 选择 Create cluster (创建集群) 以启动集群并打开集群状态页面。

  6. 在集群状态页面上,找到集群名称旁边的 Status (状态)。在集群创建过程中,状态应从 Starting (正在启动) 更改为 Running (正在运行) 更改为 Waiting (正在等待)。您可能需要选择右侧的刷新图标或刷新您的浏览器才能接收更新。

当状态变为 Waiting (正在等待) 时,您的集群已启动、正在运行并准备好接受工作。

CLI

使用 AWS CLI 启动安装了 Spark 的集群

  1. 使用以下命令创建 Spark 集群。使用 --name 选项输入集群的名称,并使用 --ec2-attributes 选项指定 EC2 密钥对的名称。

    aws emr create-cluster \ --name "My First EMR Cluster" \ --release-label emr-5.32.0 \ --applications Name=Spark \ --ec2-attributes KeyName=myEMRKeyPairName \ --instance-type m5.xlarge \ --instance-count 3 \ --use-default-roles

    记下 --instance-type--instance-count--use-default-roles 的其他必需值。已为通用集群选择这些值。有关此处使用的 create-cluster 的信息,请参阅 AWS CLI 参考

    注意

    包含了 Linux 行继续符 (\) 以提高可读性。可以在 Linux 命令中删除或使用它们。对于 Windows,请删除它们或将其替换为脱字号 (^)。

    您应看到包含新集群的 ClusterIdClusterArn 的输出。请记下您的 ClusterId,您将用它来检查集群状态,稍后再提交工作。以下是 JSON 格式的 create-cluster 输出的示例。

    { "ClusterId": "myClusterId", "ClusterArn": "myClusterArn" }
  2. 使用以下命令检查集群状态。

    aws emr describe-cluster --cluster-id myClusterId

    您应该看到包含新集群的 Status 的输出。以下是 JSON 格式的 describe-cluster 输出的示例。

    { "Cluster": { "Id": "myClusterId", "Name": "My First EMR Cluster", "Status": { "State": "STARTING", "StateChangeReason": { "Message": "Configuring cluster software" }, ... }, ... } {

    在集群创建过程中,状态 State 应从 STARTING 更改为 RUNNINGWAITING

当集群状态变为 WAITING 时,您的集群已启动、正在运行并准备好接受工作。

有关读取集群摘要的更多信息,请参阅查看集群状态和详细信息. 有关集群状态的信息,请参阅理解集群的生命周期

步骤 2:管理 Amazon EMR 集群

现在,您的集群已启动并正在运行,您可以连接到该集群并管理它。您还可以将工作提交到正在运行的集群以处理和分析数据。

向 Amazon EMR 提交工作

在集群启动并运行后,您可以按health_violations.py步骤提交 。步骤是由一个或多个作业组成的集群工作的单位。例如,您可能提交一个步骤来计算值,或者传输和处理数据。

在创建群集时或在群集已经运行后,您可以提交多个步骤在群集上完成一组任务。有关更多信息,请参阅 向集群提交工作.

Console

使用控制台以步骤形式提交 Spark 应用程序

  1. 通过以下网址打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. Cluster List (集群列表) 中,选择您的集群的名称。确保集群处于 Waiting (正在等待) 状态。

  3. 选择 Steps (步骤),然后选择 Add step (添加步骤).

  4. 根据以下准则配置步骤:

    • 对于 Step type (步骤类型),选择 Spark application (Spark 应用程序). 您应看到 Deploy Mode (部署模式)Spark-submit options (Spark 提交选项)Application location (应用程序位置) 的其他字段。

    • 对于 Name (名称),保留默认值或键入新名称。如果您在集群中有很多步骤,命名每个步骤将帮助您跟踪这些步骤。

    • 对于 Deploy mode (部署模式),保留默认值 Cluster (集群)。有关 Spark 部署模式的更多信息,请参阅 Apache Spark 文档中的集群模式概述

    • Spark-submit options 字段留空。有关 spark-submit 选项的更多信息,请参阅使用 spark-submit 启动应用程序.

    • 对于 Application location (应用程序位置),请输入 health_violations.py 脚本在 Amazon S3 中的位置。例如,s3://DOC-EXAMPLE-BUCKET/health_violations.py.

    • Arguments (参数) 字段中,输入以下参数和值:

      --data_source s3://DOC-EXAMPLE-BUCKET/food_establishment_data.csv --output_uri s3://DOC-EXAMPLE-BUCKET/myOutputFolder

      Replace s3://DOC-EXAMPLE-BUCKET/food_establishment_data.csv 替换为您在开发和准备 Amazon EMR 应用程序中准备的输入数据的 S3 URI。

      Replace DOC-EXAMPLE-BUCKET 替换为您为本教程创建的存储桶的名称,以及 myOutputFolder 替换为您的集群输出文件夹的名称。

    • 对于 Action on failure (出现故障时的操作),接受默认选项 Continue (继续),以便在步骤失败时,集群继续运行。

  5. 选择 Add (添加) 以提交步骤。步骤应显示在控制台中,其状态为 Pending

  6. 步骤的状态应在运行时从 Pending 变为 Running 再变为 Completed。要在 控制台中更新状态,请选择 Filter 右侧的刷新图标。运行脚本大约需要一分钟时间。

您将知道,当状态更改为 Completed (已完成) 时,步骤已成功完成。

CLI

使用 AWS CLI 以步骤形式提交 Spark 应用程序

  1. 确保您拥有在ClusterId中启动的集群的 启动 Amazon EMR 集群。您还可以使用以下命令检索集群 ID。

    aws emr list-clusters --cluster-states WAITING
  2. 以步骤形式通过 health_violations.py 命令将 add-steps 提交到您的 ClusterId

    • 您可以通过替换 "My Spark Application", 在 Args 数组中,替换 s3://DOC-EXAMPLE-BUCKET/health_violations.py 替换为您的 health_violations.py 应用程序的位置。

    • Replace s3://DOC-EXAMPLE-BUCKET/food_establishment_data.csv 替换为 food_establishment_data.csv 数据集的 S3 位置。

    • Replace s3://DOC-EXAMPLE-BUCKET/MyOutputFolder 替换为指定存储桶的 S3 路径和集群输出文件夹的名称。

    • ActionOnFailure=CONTINUE 表示如果步骤失败,集群将继续运行。

    aws emr add-steps \ --cluster-id myClusterId \ --steps Type=Spark,Name="My Spark Application",ActionOnFailure=CONTINUE,Args=[s3://DOC-EXAMPLE-BUCKET/health_violations.py,--data_source,s3://DOC-EXAMPLE-BUCKET/food_establishment_data.csv,--output_uri,s3://DOC-EXAMPLE-BUCKET/MyOutputFolder]

    有关使用 CLI 提交步骤的更多信息,请参阅 AWS CLI 命令参考

    提交步骤后,您应看到包含 StepIds 列表的输出。由于您提交了一个步骤,因此列表中应该只有一个 ID。复制您的步骤 ID,您将使用它来检查步骤的状态。

    以下是您在提交步骤后应看到的 JSON 格式的控制台输出的示例。

    { "StepIds": [ "s-1XXXXXXXXXXA" ] }
  3. 使用步骤 ID 和 describe-step 命令查询步骤的状态。Replace myClusterId 替换为您的集群 ID。

    aws emr describe-step --cluster-id myClusterId --step-id s-1XXXXXXXXXXA

    您应看到包含有关您的步骤的信息的输出以及 Status 部分。以下是 JSON 格式的示例 describe-step 输出。

    { "Step": { "Id": "s-1XXXXXXXXXXA", "Name": "My Spark Application", "Config": { "Jar": "command-runner.jar", "Properties": {}, "Args": [ "spark-submit", "s3://DOC-EXAMPLE-BUCKET/health_violations.py", "--data_source", "s3://DOC-EXAMPLE-BUCKET/food_establishment_data.csv", "--output_uri", "s3://DOC-EXAMPLE-BUCKET/myOutputFolder" ] }, "ActionOnFailure": "CONTINUE", "Status": { "State": "COMPLETED", ... } } }

    步骤的 State 会随着步骤的运行从 PENDING 变为 RUNNINGCOMPLETED运行该步骤大约需要一分钟时间,因此您可能需要检查状态几次。

State 变为 COMPLETED 时,您将知道该步骤已成功。

有关步骤生命周期的更多信息,请参阅运行步骤以处理数据

查看结果

步骤成功运行后,您可以在提交步骤时指定的 Amazon S3 输出文件夹中查看其输出结果。

查看 health_violations.py 的结果

  1. 通过以下网址打开 Amazon S3 控制台:https://console.aws.amazon.com/s3/

  2. 选择 Bucket name (存储桶名称),然后选择提交步骤时指定的输出文件夹。例如,DOC-EXAMPLE-BUCKET 然后 myOutputFolder.

  3. 验证输出文件夹中是否有以下项目:

    • 一个名为 _SUCCESS 的小对象,指示您的步骤成功。

    • 以前缀 part- 开头的 CSV 文件。这是包含结果的对象。

  4. 选择包含您的结果的对象,然后选择 Download (下载) 以将其保存到本地文件系统。

  5. 在所选编辑器中打开结果。输出文件列出了具有最多的红色违规项的十家食品店。

    以下是 health_violations.py 结果的示例。

    name, total_red_violations SUBWAY, 322 T-MOBILE PARK, 315 WHOLE FOODS MARKET, 299 PCC COMMUNITY MARKETS, 251 TACO TIME, 240 MCDONALD'S, 177 THAI GINGER, 153 SAFEWAY INC #1508, 143 TAQUERIA EL RINCONSITO, 134 HIMITSU TERIYAKI, 128

有关 Amazon EMR 集群输出的更多信息,请参阅Configure an Output Location

(可选)设置集群连接

此步骤不是必需的,但您可以选择使用安全外壳 (SSH) 连接到集群节点,以便执行命令、以交互方式运行应用程序和读取日志文件等任务。

配置安全组规则

在连接到集群之前,您必须设置端口 22 入站规则以允许 SSH 连接。

安全组充当虚拟防火墙以控制至您的集群的入站和出站流量。当您使用默认安全组创建集群时,Amazon EMR 将创建以下组:

ElasticMapReduce-master

与主实例关联的默认 Amazon EMR 托管安全组。

ElasticMapReduce-slave

与核心和任务节点关联的默认安全组。

允许对 ElasticMapReduce-master 安全组的可信来源进行 SSH 访问

您必须作为以下身份登录 AWS:根用户或被允许管理集群所在 VPC 的安全组的 IAM 委托人。有关更多信息,请参阅 IAM 用户指南 中的 更改 IAM 用户的权限和允许管理 EC2 安全组的示例策略

  1. 通过以下网址打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 选择 Clusters

  3. 选择集群的 Name (名称)

  4. Security and access (安全与访问) 下,选择 Security groups for Master (主节点的安全组) 链接。

  5. 从列表中选择 ElasticMapReduce-master

  6. 依次选择入站编辑

  7. 检查是否存在通过以下设置允许进行公有访问的入站规则。如果存在,请选择删除,将其删除。

    • 类型

      SSH

    • 端口

      22

    • 自定义 0.0.0.0/0

    警告

    2020 年 12 月之前,公有子网中主实例的默认 EMR 托管安全组是使用预配置的规则创建的,以在端口 22 上允许来自所有来源的入站流量。创建此规则是为了简化与主节点的初始 SSH 连接。我们强烈建议您删除此入站规则,并限制流量仅来自可信的来源。

  8. 滚动到规则底部并选择 Add Rule (添加规则)

  9. 对于 Type (类型),选择 SSH

    这会自动输入 TCP(对于 Protocol (协议))和 22(对于 Port Range (端口范围))。

  10. 对于源,选择 My IP (我的 IP)

    这会自动将您的客户端计算机的 IP 地址添加为源地址。或者,您可以添加一系列Custom (自定义)可信客户端 IP 地址,然后选择 Add rule (添加规则) 来创建针对其他客户端的其他规则。许多网络环境会动态分配 IP 地址,因此您可能需要定期编辑安全组规则,以更新受信任客户端的 IP 地址。

  11. 选择 Save

  12. (可选)从列表中选择 ElasticMapReduce-slave 并重复上述步骤以允许从可信客户端对核心和任务节点执行 SSH 客户端访问。

连接到群集

配置 SSH 规则后,请转到 使用 SSH 连接到主节点,然后按照说明操作:

  • 检索要连接到的节点的公有 DNS 名称。

  • 使用 SSH 连接到集群。

有关如何对集群节点进行身份验证的更多信息,请参阅Authenticate to Amazon EMR Cluster Nodes

步骤 3:清除 Amazon EMR 集群资源

现在,您已向集群提交工作并查看 PySpark 应用程序的结果,您可以关闭集群并删除指定的 Amazon S3 存储桶以避免产生额外费用。

关闭您的集群

关闭集群将停止其所有关联的 Amazon EMR 费用和 Amazon EC2 实例。

Amazon EMR 在您终止集群后,将保留两个月的有关集群的元数据。这样就可以轻松地为新作业克隆集群或重新访问其配置以用于参考。元数据 包含集群可能已写入 S3 的数据,或集群运行期间存储在集群的 HDFS 中的数据。

注意

在关闭集群后,Amazon EMR 控制台不允许您从列表视图中删除集群。当 Amazon EMR 清除终止的集群的元数据时,该集群将从控制台中消失。

Console

使用控制台关闭集群

  1. 通过以下网址打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 选择 Clusters (集群),然后选择要关闭的集群。例如,My First EMR Cluster.

  3. 选择 Terminate (终止) 以打开 Terminate cluster (终止集群) 提示。

  4. 在打开的提示中,再次选择 Terminate (终止) 以关闭集群。根据集群配置,可能需要 5 到 10 分钟才能完全终止并释放分配的 EC2 资源。有关关闭 Amazon EMR 集群的更多信息,请参阅终止集群

    注意

    创建集群时,通常会启用终止保护,以防止意外关闭。如果您密切遵循本教程,则终止保护应关闭。如果终止保护处于开启状态,您将在终止集群之前看到一条更改设置的提示。选择 Change (更改),然后选择 Off (关闭)

CLI

使用 AWS CLI关闭集群

  1. 使用以下命令启动群集终止过程,同时替换 myClusterId 替换为示例群集的 ID。

    aws emr terminate-clusters --cluster-ids myClusterId

    您不应看到任何输出。

  2. 要检查集群终止过程是否已开始,请使用以下命令检查集群状态。

    aws emr describe-cluster --cluster-id myClusterId

    以下是 JSON 格式的示例输出。集群 Status 应从 TERMINATING 更改为 TERMINATED。根据集群配置,可能需要 5 到 10 分钟才能完全终止并释放分配的 EC2 资源。有关关闭 Amazon EMR 集群的更多信息,请参阅终止集群

    { "Cluster": { "Id": "j-xxxxxxxxxxxxx", "Name": "My Cluster Name", "Status": { "State": "TERMINATED", "StateChangeReason": { "Code": "USER_REQUEST", "Message": "Terminated by user request" }, ... }, ... }, ... }

删除 S3 资源

删除您之前创建的存储桶,以删除本教程中使用的所有 Amazon S3 对象。此存储桶应包含您的输入数据集、集群输出、PySpark 脚本和日志文件。如果您将 PySpark 脚本或输出保存在其他位置,则可能需要执行额外的步骤来删除存储的文件。

注意

在删除存储桶之前,必须完全关闭集群。否则,尝试清空存储桶时可能会遇到问题。

按照 https://docs.aws.amazon.com/AmazonS3/latest/user-guide/delete-bucket.html 中的如何删除 S3 存储桶Amazon Simple Storage Service 入门指南中的说明操作,清空存储桶并将其从 S3 中删除。

后续步骤

现在,您已从头到尾启动您的第一个 Amazon EMR 集群,并演示了重要的 EMR 任务,例如准备和提交大数据应用程序、查看结果和关闭集群。

以下是一些用于了解有关定制 Amazon EMR 工作流程的建议主题。

探索 Amazon EMR 的大数据应用程序

Amazon EMR 版本指南中发现并比较您可以安装在集群上的大数据应用程序。发行指南还包含有关每个 EMR 版本的详细信息,以及有关如何在 Amazon EMR 上配置和使用 Spark 和 Hadoop 等框架的提示。

计划集群硬件、联网和安全性

在本教程中,您将创建一个简单的 EMR 集群,而不配置高级选项,如实例类型、联网和安全性。有关规划和启动满足您的速度、容量和安全要求的集群的更多信息,请参阅计划和配置群集 中的安全性Amazon EMR

管理集群

深入了解 Manage Clusters 中正在运行的集群,该主题介绍如何连接到集群、调试步骤以及跟踪集群活动和运行状况。您还可以了解有关使用 EMR 托管扩展调整集群资源以响应工作负载需求的更多信息。

使用不同的接口

除了 Amazon EMR 控制台之外,您还可以使用 Amazon EMR、Web 服务 API 或许多支持的 AWS 开发工具包之一来管理 AWS Command Line Interface。有关更多信息,请参阅 管理界面.

您可以使用许多方式与 Amazon EMR 集群上安装的应用程序进行交互。某些应用程序 (如 Apache Hadoop) 会发布您可以在集群实例上查看的 Web 界面。有关更多信息,请参阅 查看 Amazon EMR 集群上托管的 Web 界面. 对于运行 Apache Spark 的 Amazon EMR 集群,您可以使用 Amazon EMR 控制台中的 EMR 笔记本来运行查询和代码。有关更多信息,请参阅 Amazon EMR 笔记本.

浏览 EMR 技术博客

有关 EMR 功能的示例演练和深入的技术讨论,请参阅 AWS 大数据博客