無法連線故障診斷執行個體 - Amazon Elastic Compute Cloud

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

無法連線故障診斷執行個體

您可以使用下列方法對無法連線的 Amazon EC2 執行個體進行疑難排解。

重新啟動執行個體

對於故障診斷和一般的執行個體管理,能夠重新啟動無法連線的執行個體很重要。

如同您可以按下重設鈕來重設電腦,您也可以使用 Amazon EC2 主控台、CLI 或 API,來重設 EC2 執行個體。如需詳細資訊,請參閱 重新啟動您的執行個體

執行個體主控台輸出

主控台輸出是診斷問題的一項寶貴工具。在針對核心問題和服務組態問題進行故障診斷時 (這些問題可能會造成執行個體終止,或是在其 SSH 協助程式能夠啟動之前較無法連線),這項工具尤其實用。

  • Linux 執行個體 — 執行個體主控台輸出會顯示通常會在連接至電腦的實體監視器上顯示的確切主控台輸出。主控台輸出會傳回經過緩衝的資訊,這些資訊會在執行個體轉換狀態 (啟動、停止、重新啟動和終止) 之後不久發布。已發布的輸出不會連續更新,只有在可能具有最高價值時才會更新。

  • Windows 執行個體 — 執行個體主控台輸出包含最後三個系統事件記錄錯誤。

在執行個體生命週期內,您隨時可以選擇擷取最新的序列主控台輸出。只有在 AWS Nitro 系統上建置的執行個體上才支援此選項。不支援透過 Amazon EC2 主控台來使用此選項。

注意

只會存放最近發布的 64 KB 輸出資料,在最近一次發布後至少 1 小時內,都能使用這些資料。

只有執行個體才能存取主控台輸出資料。

使用下列方法之一來獲取主控台輸出。

Console
無法取得主控台輸出
  1. https://console.aws.amazon.com/ec2/ 開啟 Amazon EC2 主控台。

  2. 在左側導覽窗格中選擇 (執行個體)

  3. 選取執行個體,然後再依序選擇動作監控和故障診斷取得系統記錄檔

Command line
無法取得主控台輸出

您可以使用下列其中一個命令。如需有關這些命令列介面的詳細資訊,請參閱存取 Amazon EC2

擷取無法連線執行個體的螢幕擷取畫面

如果您無法連線至執行個體,您可以擷取執行個體的螢幕擷取畫面,並以映像檔的形式檢視。此影像可讓您看到執行個體的狀態,有利於更快進行故障診斷。

您可以在執行個體執行中或執行個體當機後產生螢幕擷取畫面。產生的影像格式為 JPG ,大小不超過 100 kb。螢幕擷取畫面不收取資料傳輸費用。

限制

下列項目不支援此功能:

支援的區域

此功能在以下 區域可用:

  • US East (N. Virginia) Region

  • 美國東部 (俄亥俄) 區域

  • 美國西部 (加利佛尼亞北部) 區域

  • 美國西部 (奧勒岡) 區域

  • 非洲 (開普敦) 區域

  • 亞太區域 (香港) 區域

  • 亞太區域 (海德拉巴)

  • 亞太區域 (雅加達)

  • 亞太區域 (墨爾本) 區域

  • 亞太 (孟買) 區域

  • 亞太 (大阪) 區域

  • 亞太 (首爾) 區域

  • 亞太區域 (新加坡) 區域

  • 亞太 (雪梨) 區域

  • 亞太 (東京) 區域

  • 加拿大 (中部) 區域

  • 加拿大西部 (卡加利) 區域

  • 中國 (北京) 區域

  • 中國 (寧夏) 區域

  • 歐洲 (法蘭克福) 區域

  • 歐洲 (愛爾蘭) 區域

  • 歐洲 (倫敦) 區域

  • Europe (Milan) Region

  • 歐洲 (巴黎) 區域

  • 歐洲 (西班牙) 區域

  • 歐洲 (斯德哥爾摩) 區域

  • 歐洲 (蘇黎世) 區域

  • 以色列 (特拉維夫) 區域

  • 南美洲 (聖保羅) 區域

  • Middle East (Bahrain) Region

  • 中東 (阿拉伯聯合大公國) 區域

Console
取得執行個體的螢幕擷取畫面
  1. https://console.aws.amazon.com/ec2/ 開啟 Amazon EC2 主控台。

  2. 在左側導覽窗格中選擇 (執行個體)

  3. 選取要擷取的執行個體。

  4. 選擇 動作監視和故障診斷取得執行個體螢幕截圖

  5. 選擇 下載,或在要下載的影像上按一下滑鼠右鍵並儲存。

Command line
擷取執行個體的螢幕擷取畫面

您可以使用下列其中一個命令。傳回的內容為 base64 編碼。如需有關這些命令列介面的詳細資訊,請參閱存取 Amazon EC2

Windows 執行個體的常見螢幕擷

您可根據服務傳回的螢幕截取畫面,使用下列資訊協助您故障診斷無法連線的 Windows 執行個體。

登入畫面 (Ctrl+Alt+Delete)

主控台螢幕截取畫面服務傳回下列內容。

登入畫面。

如果在登入期間無法連線某個執行個體,可能是您的網路組態或 Windows 遠端桌面服務發生問題。如有程序正在佔用大量的 CPU,執行個體也可能不回應。

網路組態

請使用下列資訊來確認您的 AWS、Microsoft Windows 和本機 (或內部部署) 網路組態並未封鎖對執行個體的存取。

AWS 網路組態
組態 確認
安全群組組態 確認連接埠 3389 已開放給您的安全群組。確認您連線到正確的公有 IP 地址。如果執行個體與彈性 IP 地址無關聯,則公有 IP 地址會在執行個體停止/啟動後變更。如需詳細資訊,請參閱 遠端桌面無法連線到遠端電腦
VPC 組態 (網路 ACL) 確認您 Amazon VPC 的存取控制清單 (ACL) 未封鎖存取。如需相關資訊,請參閱《Amazon VPC 使用者指南》中的網路 ACL
VPN 組態 如果您使用虛擬私有網路 (VPN) 連線至您的 VPC,請確認 VPN 通道的連線能力。如需詳細資訊,請參閱如何故障診斷 VPN 對 Amazon VPC 的通道連線?
Windows 網路組態
組態 確認
Windows 防火牆 確認 Windows 防火牆未封鎖對您執行個體的連線。如遠端桌面故障診斷一節遠端桌面無法連線到遠端電腦第 7 項所述,停用 Windows 防火牆。
進階 TCP/IP 組態 (使用靜態 IP) 因為您設定了靜態 IP 地址,所以執行個體可能不回應。若為 VPC,請建立網路介面連接至執行個體

本機或內部部署的網路組態

確認本機網路組態未封鎖存取。嘗試連線到與無法連線之執行個體同一 VPC 的另一個執行個體。如果您無法存取另一個執行個體,請與您的本機網路管理員合作,判斷本機政策是否限制存取。

遠端桌面服務問題

如果在登入期間無法連線執行個體,可能是執行個體上的遠端桌面服務 (RDS) 發生問題。

提示

您可以使用 AWSSupport-TroubleshootRDP 執行手冊,檢查和修改可能影響遠端桌面通訊協定 (RDP) 連線的各種設定。如需詳細資訊,請參閱 AWS Systems Manager Automation Runbook 參考 中的 AWSSupport-TroubleshootRDP

遠端桌面服務組態
組態 確認
RDS 執行中 確認 RDS 是否正在執行個體上執行。使用 Microsoft Management Console (MMC) 服務嵌入式管理單元連線至執行個體 (services.msc)。在服務清單中,確認 Remote Desktop Services (遠端桌面服務)Running (執行中)。如果不是,請啟動它,然後將啟動類型設為 Automatic (自動)。如果使用服務嵌入式管理單元無法連線至執行個體,請分離根磁碟區與執行個體、拍攝磁碟區快照或從磁碟區建立 AMI、將原始磁碟區連接到同一可用區域的另一個執行個體做為輔助磁碟區,然後修改 Start 登錄機碼。完成後,重新將根磁碟區連接到原始執行個體。
RDS 已啟用

即使服務已啟動,仍可能停用。分離根磁碟區與執行個體、拍攝磁碟區快照或從磁碟區建立 AMI、將原始磁碟區連接到相同可用區域的另一個執行個體做為輔助磁碟區,然後如 使用遠端登錄在 EC2 執行個體上啟用遠端桌面 所述,修改 Terminal Server 登錄機碼來啟用服務。

完成後,重新將根磁碟區連接到原始執行個體。

高 CPU 使用率

使用 Amazon 檢查執行個體上的 CPU 使用率 (最大值) 指標。 CloudWatch如果 CPUUtilization (Maximum) 的值很高,請等 CPU 下降再嘗試連線。CPU 使用率高的可能的原因如下:

  • Windows 更新

  • 安全軟體掃描

  • 自訂啟動指令碼

  • 任務排程

如需詳細資訊,請參閱 Amazon CloudWatch 使用者指南中的取得特定資源的統計資料。如需其他的故障診斷秘訣,請參閱 視窗啟動後不久的 CPU 使用率過高 (僅限 Windows 執行個體)

復原主控台螢幕

主控台螢幕截取畫面服務傳回下列內容。

復原主控台螢幕截取畫面。

作業系統可能在復原主控台中開機,然後卡在這個狀態,如果 bootstatuspolicy 不是設為 ignoreallfailures。請使用下列程序將 bootstatuspolicy 組態變更為 ignoreallfailures

根據預設,由提供的公用 Windows AMI 的原則組態設定會設定 AWS 為ignoreallfailures

  1. 停止無法連線的執行個體。

  2. 建立根磁碟區的快照。根磁碟區連接至此執行個體做為 /dev/sda1

    分離根磁碟區與無法連線的執行個體、拍攝磁碟區快照或從磁碟區建立 AMI,然後將它連接到同一可用區域的另一個執行個體做為輔助磁碟區。

    警告

    如果您的暫時執行個體與原始執行個體使用相同的 AMI 啟動,則您必須完成額外的步驟,否則您無法在還原原始執行個體根磁碟區之後將其啟動,原因是磁碟簽名衝突。如果您必須是使用同一 AMI 建立暫時執行個體,為避免發生磁碟簽章衝突,請完成 磁碟簽章衝突 中的步驟。

    或者,請為暫時執行個體選擇不同的 AMI。例如,如果原始執行個體使用 AMI 適用於視窗伺服器 2016 年,請使用 AMI 啟動暫存執行個體 (適用於視窗伺服器 2019 年)。

  3. 登入執行個體,從命令提示執行下列命令以將 bootstatuspolicy 組態變更為 ignoreallfailures

    bcdedit /store Drive Letter:\boot\bcd /set {default} bootstatuspolicy ignoreallfailures
  4. 將磁碟區重新連接至無法連線的執行個體,然後再次啟動執行個體。

Windows 開機管理程式畫面

主控台螢幕截取畫面服務傳回下列內容。

Windows 開機管理程式畫面。

作業系統的系統檔案及/或登錄發生重大損毀。當執行個體卡在這個狀態時,您應該從最近的備份 AMI 復原執行個體或啟動替代執行個體。如果您需要存取此執行個體的資料,請分離所有根磁碟區與無法連線的執行個體、拍攝這些磁碟區的快照或從這些磁碟區建立 AMI,然後將它們連接到同一可用區域的另一個執行個體做為輔助磁碟區。

Sysprep 畫面

主控台螢幕截取畫面服務傳回下列內容。

Sysprep 畫面。

如果您未使用 EC2Config 服務呼叫 sysprep 或如果作業系統在執行 Sysprep 時失敗,您可能會看到這個畫面。您可以使用 EC2Rescue 來重設密碼。否則,請參閱 使用視窗系統建立 AMI

就緒畫面

主控台螢幕截取畫面服務傳回下列內容。

就緒畫面。

重複更新執行個體主控台螢幕擷取畫面服務的畫面,以確認進度環是否旋轉。如果進度環不停旋轉,請等候作業系統啟動。您也可以使用 Amazon CloudWatch 查看作業系統是否處於作業中狀態,檢查執行個體上的 CPU 使用率 (最大值) 指標。如果進度環不旋轉,則執行個體可能卡在開機程序。重新啟動執行個體。如果重新開機不能解決此問題,請從最近的備份 AMI 復原執行個體或啟動替代執行個體。如果您需要存取此執行個體上的資料,請分離根磁碟區與無法連線的執行個體、拍攝磁碟區快照或從磁碟區建立 AMI。然後將它連接到同一可用區域的另一個執行個體做為輔助磁碟區。

Windows Update 畫面

主控台螢幕截取畫面服務傳回下列內容。

Windows Update 畫面。

Windows Update 程序正在更新登錄。等候更新完成。不要重新開機或停止執行個體,因為這會在更新期間造成資料損毀。

注意

Windows Update 程序在更新期間會使用伺服器的資源。如果您經常碰到此問題,請考慮使用更快的執行個體類型和更快的 EBS 磁碟區。

Chkdsk

主控台螢幕截取畫面服務傳回下列內容。

Chkdsk 畫面。

Windows 對磁碟機使用 chkdsk 系統工具,以確認檔案系統完整性並修復邏輯檔案系統錯誤。請等候程序完成。

當主機電腦故障時的執行個體復原

如果底層主機電腦的硬體具有無法修復的問題, AWS 可能會排程執行執行個體停止事件。您會事先收到此類事件的電子郵件通知。

在主機電腦故障時復原其上執行的 Amazon EBS 後端執行個體
  1. 將執行個體存放磁碟區上的所有重要資料備份到 Amazon EBS 或 Amazon S3。

  2. 停止執行個體。

  3. 啟動實例。

  4. 復原所有重要的資料。

如需詳細資訊,請參閱 停止並啟動 Amazon EC2 執行個體

在主機電腦故障時復原其上執行的執行個體存放區後端執行個體
  1. 從執行個體建立 AMI。

  2. 將映像上傳到 Amazon S3。

  3. 將重要的資料備份到 Amazon EBS 或 Amazon S3。

  4. 終止執行個體。

  5. 從 AMI 啟動新的執行個體。

  6. 將所有重要的資料還原到新的執行個體上。