疑難排解檔案閘道問題 - AWSStorage Gateway

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

疑難排解檔案閘道問題

當您執行 VMware vSphere 高可用性 (HA) 時,您可以使用 Amazon CloudWatch 日誌組來配置檔案閘道。如果您這樣做,就會收到檔案閘道運作狀態及檔案閘道所發生之錯誤的相關通知。您可以在 CloudWatch Logs 中找到這些錯誤和運作狀態通知的相關資訊。

在下列各節,您可以找到相關資訊,協助您了解每個錯誤的原因、運作狀態通知,以及修正問題的方法。

錯誤:ObjectMissing

你可以得到一個ObjectMissing當指定的檔案閘道以外的寫入者從 Amazon FSX 刪除指定的檔案時發生錯誤。後續任何物件上傳至 Amazon FSX 或從 Amazon FSX 檢索該物件都會失敗。

解決 ObjectMissing 錯誤
  1. 將檔案的最新副本儲存至 SMB 用户端的本機檔案系統(您需要此檔案副本)。

  2. 使用 SMB 用端,從檔案閘道刪除檔案。

  3. 使用您的 SMB 用户端,複製您在步驟 1 中儲存的檔案的最新版本。透過您的檔案閘道執行此作業。

:Notification 重新開機

當閘道 VM 重新啟動時,您可能會收到重新啟動通知。您可以使用 VM Hypervisor Management 主控台或儲存閘道主控台來重新啟動閘道 VM。您也可以在閘道維護週期期間使用閘道軟體來重新啟動。

如果重新啟動的時間在閘道所設定之維護開始時間的 10 分鐘以內,此重新啟動可能是正常的情況,而不是任何問題的徵兆。如果重新啟動很常在維護時段外發生,請檢查閘道是否已手動重新啟動。

:Notification HardReboot

當閘道 VM 意外重新啟動時,您可能會收到 HardReboot 通知。這種重新啟動可能是因為電源中斷、硬體故障或其他事件。若是 VMware 閘道,由 vSphere High Availability Application Monitoring 執行的重設可能會觸發此事件。

當閘道在這種環境中執行時,請檢查 HealthCheckFailure 通知是否存在,並參閱 VM 的 VMware 事件記錄。

:Notification HealthCheckFailure

若是 VMware vSphere HA 上的閘道,當運作狀態檢查失敗且請求 VM 重新啟動時,您可能會收到 HealthCheckFailure 通知。此事件也會在監控可用性的測試期間發生,並顯示於 AvailabilityMonitorTest 通知中。在此情況下,則預期會收到HealthCheckFailure 通知。

注意

此通知僅適用於 VMware 閘道。

如果此事件在沒有 AvailabilityMonitorTest 通知的情況下重複發生,請檢查您的 VM 基礎設施是否有問題 (儲存空間、記憶體等)。如果您需要其他協助,請聯絡AWS Support。

:Notification AvailabilityMonitorTest

你會得到一個AvailabilityMonitorTest當您的通知運行測試可用性和應用程序監控系統上運行在 VMware vSphere HA 平台上的網關上。

錯誤:RoleTrustRelationshipInvalid

當檔案共享的 IAM 角色有錯誤的 IAM 信任關係時(也就是,IAM 角色不信任名為storagegateway.amazonaws.com。因此,檔案閘道無法取得登入資料來在備份檔案共享的 S3 儲存貯體上執行任何操作。

解決 RoleTrustRelationshipInvalid 錯誤

  • 使用 IAM 主控台或 IAM API 包含storagegateway.amazonaws.com作為您檔案共享 iAMRole 所信任的委託人。如需 IAM 角色的詳細資訊,請參教程:跨AWS使用 IAM 角色的賬户

使用 CloudWatch 指標進行故障

您可在下列章節找到使用 Amazon CloudWatch 指標和 Storage Gateway 使用的問題時所需採取的動作資訊。

瀏覽目錄時,網關反應緩慢

如果檔案閘道反應緩慢,當您執行ls命令或瀏覽目錄,請檢查IndexFetchIndexEvictionCloudWatch 指標:

  • 如果IndexFetch量度大於 0,當您運行ls命令或瀏覽目錄時,您的檔案閘道已在沒有受影響目錄內容的信息的情況下啟動,並且必須存取 Amazon S3。後續列出該目錄內容的動作應會更快完成。

  • 如果IndexEviction指標大於 0,表示您的檔案閘道已達到其在當下可以管理的數量限制。在此情況下,檔案閘道必須從最近存取的目錄釋放一些儲存空間,才能列出新目錄。如果頻繁發生此問題,並對性能有影響,請聯繫AWS Support。

    開發論壇AWS Support相關 Amazon FSx 檔案系統的內容和建議,以根據您的使用案例提升效能。

您的網關未響應

如果檔案閘道無回應,請執行下列操作:

  • 如果有最近的重新開機或軟體更新,則請查看 IOWaitPercent 指標。此指標會顯示在有未完成磁碟 I/O 請求時 CPU 閒置時間的百分比。在某些情況下,百分比可能偏高 (10 或以上),而且可能已在伺服器重新啟動或更新後上升。在這些情況下,檔案閘道會重建索引緩存至 RAM,因此檔案閘道可能因根磁碟較慢而存在瓶頸。您可以將速度較快的實體磁碟用於根磁碟來解決此問題。

  • 如果MemUsedBytes指標等於或幾乎與MemTotalBytes指標,則檔案閘道的可用 RAM 即將用盡。請確認檔案閘道至少有所需的最小 RAM。如果已有此容量,請根據您的工作負載和使用案例,考慮增加更多 RAM 到檔案閘道。

    如果檔案共享是 SMB,此問題也可能是因為連線到檔案共享的 SMB 用戶端數目所造成。若要查看在任何指定時間連線的用戶端數目,請檢查 SMBV(1/2/3)Sessions 指標。如果有許多用户端連線,您可能需要增加更多 RAM 到檔案閘道。

您在亞馬遜 FSx 文件系統中看不到文件

如果您注意到網關上的文件未反映在 Amazon FSx 文件系統中,請檢查FilesFailingUpload指標。如果指標報告某些文件上傳失敗,請檢查您的運行狀況通知。當文件上傳失敗時,網關會生成一個運行狀況通知,其中包含有關該問題的更多詳細信息。

您的閘道緩慢傳輸資料到 Amazon FSX

如果檔案閘道傳輸資料到 Amazon S3 的速度緩慢,請執行下列操作:

  • 如果CachePercentDirty指標是 80 或以上,則檔案閘道寫入資料到磁碟的速度會比上傳資料到 Amazon S3 的速度更快。請考慮從檔案閘道增加上傳頻寬、增加一或多個快取磁碟,或降低用户端寫入速度。

  • 如果CachePercentDirty指標偏低,請檢查IoWaitPercent指標。如果IoWaitPercent大於 10,檔案閘道可能因本機快取磁碟速度而存在瓶頸。建議將本機固態硬碟 (SSD) 磁碟用於快取,最好是 NVM Express (NVMe)。如果無法取得這種磁碟,請嘗試使用來自個別實體磁碟的多個快取磁碟,以提升效能。

您的閘道備份任務失敗,或寫入至閘道時發生錯誤

如果檔案閘道備份任務失敗,或寫入至檔案閘道時發生錯誤,請執行下列動作:

  • 如果CachePercentDirty指標是 90% 或以上,由於快取磁碟上無足夠的可用空間,您的檔案閘道則無法接入磁碟新的寫入。如需檔案閘道上傳至 Amazon FSx 或 Amazon S3 的速度,請參CloudBytesUploaded指標。將該指標與WriteBytes指標,該指標會顯示客户端向檔案閘道寫入檔案的速度。如果您的檔案閘道寫入速度比上傳到 Amazon FSX 或 Amazon S3 的速度更快,請增加更多快取磁碟,以至少涵蓋備份任務的大小。或者,增加上傳頻寬。

  • 如果備份作業失敗,但CachePercentDirty指標小於 80%,則檔案閘道可能遇到用户端會話超時。若是 SMB,您可使用 PowerShell 命令 Set-SmbClientConfiguration -SessionTimeout 300 來增加此逾時設定。執行此命令會將逾時設為 300 秒。

    若是 NFS,請確認用戶端是採用硬性掛載的方式掛載,而非是軟性掛載。