上的 EMR 叢集 AWS Outposts - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

上的 EMR 叢集 AWS Outposts

從 Amazon EMR 5.28.0 開始,您可以在上建立和執行 EMR 叢集。 AWS Outposts AWS Outposts 在內部部署設施中啟用原生 AWS 服務、基礎架構和作業模型。在 AWS Outposts 環境中,您可以使用在 AWS 雲端中使用的相同 AWS API、工具和基礎結構。Amazon EMR on 非 AWS Outposts 常適合需要在鄰近現場部署資料和應用程式執行的低延遲工作負載。若要取得有關的更多資訊 AWS Outposts,請參閱AWS Outposts 使用指南

必要條件

以下是使用 AWS Outposts上的 Amazon EMR 的先決條件:

  • 您必須已 AWS Outposts 在內部部署資料中心中安裝並設定。

  • 您必須在 Outpost 環境和 AWS 區域之間建立可靠的網路連線。

  • 您必須擁有足夠的容量,才能在 Outpost 中使用 Amazon EMR 支援的執行個體類型。

限制

以下是使用 AWS Outposts上的 Amazon EMR 的限制:

  • 隨需執行個體是 Amazon EC2 執行個體唯一支援的選項。Spot 執行個體不適用於 AWS Outposts上的 Amazon EMR。

  • 如果您需要其他 Amazon EBS 儲存磁碟區,則僅支援一般用途 SSD (GP2)。

  • 當您 AWS Outposts 與 Amazon EMR 5.28 到 6.x 版搭配使用時,您只能使用將物件存放在您指定的儲存貯體中的 S3 儲存貯體 AWS 區域 。使用 Amazon EMR 7.0.0 及更高版本,S3A文件系統客戶端前綴 AWS Outposts 也支持 Amazon EMR。s3a://

  • AWS Outposts上的 Amazon EMR 僅支援下列執行個體類型:

    執行個體類別 執行個體類型
    一般用途

    m5.xlarge | m5.2xlarge | m5.4xlarge | m5.12xlarge | m5.24xlarge | m5d.xlarge | m5d.2xlarge | m5d.4xlarge | m5d.12xlarge | m5d.24xlarge

    運算最佳化

    c5.xlarge | c5.2xlarge | c5.4xlarge | c5.18xlarge | c5d.xlarge | c5d.2xlarge | c5d.4xlarge | c5d.18xlarge

    記憶體最佳化

    r5.xlarge | r5.2xlarge | r5.4xlarge | r5.12xlarge | r5d.xlarge | r5d.2xlarge | r5d.4xlarge | r5d.12xlarge | r5d.24xlarge

    儲存最佳化

    i3en.xlarge | i3en.2xlarge | i3en.3xlarge | i3en.6xlarge | i3en.12xlarge | i3en.24xlarge

網路連線能力考量

  • 如果 Outpost 與其 AWS 區域之間的網路連線中斷,您的叢集將繼續執行。不過,在連線恢復之前,您將無法建立新叢集或對現有叢集採取新動作。在執行個體失敗的情況下,執行個體將不會被自動替換。此外,新增步驟至執行中叢集、檢查步驟執行狀態,以及傳送 CloudWatch 指標和事件等動作也會延遲。

  • 我們建議您在前哨站和 AWS 區域之間提供可靠且高可用性的網路連線。如果 Outpost 與其 AWS 區域之間的網路連線中斷超過數小時,已啟用終止保護的叢集將繼續執行,而已停用終止保護的叢集可能會終止。

  • 若網路連線會受到例行維護影響,建議您主動啟用終止保護。一般而言,連線中斷是指無法存取不是 Outpost 或客戶網路本機的任何外部依存項目。這包括 Amazon S3、與 EMRFS 一致性檢視搭配使用的 DynamoDB,以及 Amazon RDS (如果區域內執行個體用於具有多個主節點的 Amazon EMR 叢集)。

在上建立一個 Amazon EMR 叢集 AWS Outposts

在上建立 Amazon EMR 叢集類似 AWS Outposts 於在雲端中建立 Amazon EMR 叢集。 AWS 在上建立 Amazon EMR 叢集時 AWS Outposts,您必須指定與前哨站關聯的 Amazon EC2 子網路。

Amazon VPC 可以跨越一個區域中的所有可用 AWS 區域。 AWS Outposts 是可用區域的延伸,您可以在帳戶中擴充 Amazon VPC,以跨越多個可用區域和相關聯的 Outpost 位置。當您設定 Outpost 時,您會將子網路與之相關聯,使您的區域性 VPC 環境延伸到內部部署設施。Outpost 執行個體和相關的服務就像區域 VPC 的一部分,類似於與子網路關聯的可用區域。如需更多詳細資訊,請參閱 AWS Outposts 使用者指南相關文章。

主控台

若要在上建立新的 Amazon EMR 叢集 AWS Management Console,請指定 AWS Outposts 與您的前哨關聯的 Amazon EC2 子網路。

注意

我們已重新設計 Amazon EMR 主控台,可讓您更輕鬆地使用。請參閱 Amazon EMR 控制台 以了解舊的和新的主控台體驗之間的差異。

New console
AWS Outposts 使用新主控台建立叢集
  1. 登入並開啟 Amazon EMR 主控台 AWS Management Console,網址為 https://console.aws.amazon.com/emr

  2. 在左側導覽窗格中的 EC2 上的 EMR 下,選擇叢集,然後選擇建立叢集

  3. 叢集組態下,選取執行個體群組執行個體機群。然後,從選擇 EC2 執行個體類型下拉式功能表中選擇執行個體類型,或選取動作並選擇新增 EBS 磁碟區。Amazon EMR 上 AWS Outposts 支援有限的 Amazon EBS 磁碟區和執行個體類型。

  4. 聯網下,選取 Outpost ID 為以下格式的 EC2 子網路:op-123456789。

  5. 選擇適用於您的叢集的任何其他選項。

  6. 若要啟動您的叢集,請選擇建立叢集

Old console
AWS Outposts 使用舊主控台建立叢集
  1. 導覽至新的 Amazon EMR 主控台,然後從側邊導覽選取切換至舊主控台。如需有關切換至舊主控台時預期情況的詳細資訊,請參閱使用舊主控台

  2. 選擇建立叢集

  3. 選擇前往進階選項

  4. Software Configuration (軟體組態) 下方,針對 Release (版本),選擇 5.28.0 或更新版本。

  5. 在「硬體組態」下,對於 EC2 子網路,選取具有以下格式的前哨識別碼的 Amazon EC2 子網路:op-123456789。

  6. 為統一執行個體群組或執行個體機群,選擇執行個體類型或新增 Amazon EBS 儲存磁碟區。 AWS Outposts上的 Amazon EMR 支援有限的 Amazon EBS 磁碟區和執行個體類型。

CLI
若要在上 AWS Outposts 建立叢集 AWS CLI
  • 若要在上建立新的 Amazon EMR 叢集 AWS CLI,請指定 AWS Outposts 與您的前哨關聯的 EC2 子網路,如以下範例所示。將子網路 22xxxx01 取代為您自己的 Amazon EC2 子網路識別碼。

    aws emr create-cluster \ --name "Outpost cluster" \ --release-label emr-7.1.0 \ --applications Name=Spark \ --ec2-attributes KeyName=myKey SubnetId=subnet-22XXXX01 \ --instance-type m5.xlarge --instance-count 3 --use-default-roles