步骤 4:检查集群和实例运行状况 - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

步骤 4:检查集群和实例运行状况

Amazon EMR 集群由在亚马逊EC2实例上运行的节点组成。如果这些实例受到资源限制(例如内存不足CPU或内存不足)、遇到网络连接问题或被终止,则集群处理速度就会受到影响。

集群中最多有三种类型的节点:

  • 主节点 – 管理集群。如果主节点遇到性能问题,整个集群都会受到影响。

  • 核心节点 — 处理 map-reduce 任务并维护 Hadoop 分布式文件系统 ()。HDFS如果其中一个节点遇到性能问题,则可能会减慢HDFS操作速度以及缩小映射的处理速度。您可以向集群添加其它核心节点以改进性能,但无法移除核心节点。有关更多信息,请参阅手动调整正在运行的集群的大小

  • 任务节点 – 处理 map-reduce 任务。这些纯粹是计算资源,并不存储数据。您可以向集群添加任务节点,提高性能速度,或移除不需要的任务节点。有关更多信息,请参阅手动调整正在运行的集群的大小

当您查看集群的运行状况时,应该既查看整个集群的性能,又查看各个实例的性能。您可以使用以下多种工具:

使用检查集群运行状况 CloudWatch

每个 Amazon EMR 集群都会向其报告指标 CloudWatch。这些指标提供有关集群的摘要性能信息,例如总负载、HDFS利用率、正在运行的任务、剩余任务、损坏的块等。查看这些 CloudWatch 指标可以让你大致了解集群的情况,并可以深入了解导致处理速度减慢的原因。除了使用 CloudWatch 分析现有性能问题外,您还可以设置警报,以便在将 CloudWatch 来出现性能问题时发出警报。有关更多信息,请参阅 使用监控亚马逊EMR指标 CloudWatch

检查作业状态和HDFS运行状况

使用集群详细信息页面上的应用程序用户界面选项卡查看YARN应用程序的详细信息。对于某些应用程序,您可以深入了解更多详细信息和直接访问日志。这对 Spark 应用程序特别有用。有关更多信息,请参阅查看应用程序历史记录。

Hadoop 向您提供可用于查看信息的一系列 Web 界面。有关如何访问这些 Web 界面的详细信息,请参见 查看 Amazon EMR 集群上托管的网页界面

  • JobTracker — 提供有关集群正在处理的作业进度的信息。您可以使用此界面确定作业陷入困境的时间。

  • HDFS NameNode — 提供有关每个节点的HDFS利用率百分比和可用空间的信息。您可以使用此界面来确定何时会HDFS受到资源限制并需要额外的容量。

  • TaskTracker — 提供有关集群正在处理的任务的信息。您可以使用此界面确定任务陷入困境的时间。

使用 Amazon 检查实例运行状况 EC2

另一种查找集群中实例状态信息的方法是使用 Amazon EC2 控制台。由于集群中的每个节点都在EC2实例上运行,因此您可以使用 Amazon 提供的工具EC2来检查其状态。有关更多信息,请参阅 在 Amazon 中查看集群实例 EC2