ファイルゲートウェイ問題のトラブルシューティング - AWSStorage Gateway

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ファイルゲートウェイ問題のトラブルシューティング

ファイルゲートウェイを VMware vSphere High Availability (HA) を実行するときに、Amazon CloudWatch ロググループを設定できます。その場合は、ファイルゲートウェイのヘルスステータスと、ファイルゲートウェイで発生したエラーに関する通知が表示されます。これらのエラー通知とヘルス通知については、CloudWatch Logs で確認できます。

以下のセクションでは、各エラーとヘルス通知の原因、およびその問題の修正方法を理解するのに役立つ情報が見つかります。

エラー: ObjectMissing

おれは手に入れることができるObjectMissing指定されたファイルゲートウェイ以外のライターが、指定されたファイルを Amazon FSX から削除すると、エラーが発生します。以降、Amazon FSx へのオブジェクトのアップロードまたは Amazon FSx からのオブジェクトの取得は失敗します。

ObjectMissing エラーを解決するには
  1. ファイルの最新のコピーを SMB クライアントのローカルファイルシステムに保存します (ステップ 3 でこのファイルのコピーが必要です)。

  2. SMB クライアントを使用して、ファイルゲートウェイからファイルを削除します。

  3. SMB クライアントを使用して、ステップ 1 で Amazon FSX で保存したファイルの最新バージョンをコピーします。この操作はファイルゲートウェイを介して行います。

Notification 再起動

ゲートウェイ VM の再起動時に、再起動通知が表示される場合があります。VM ハイパーバイザー管理コンソールまたは Storage Gateway コンソールを使用して、ゲートウェイ VM を再起動できます。また、ゲートウェイのメンテナンスサイクル中にゲートウェイソフトウェアを使用して再起動することもできます。

再起動の時刻がゲートウェイで設定されたメンテナンス開始時刻から 10 分以内である場合、この再起動の発生はおそらく正常であり、問題の兆候ではありません。メンテナンス期間外に著しく再起動が発生した場合は、ゲートウェイを手動で再起動したかどうかを確認します。

Notification HardReboot

ゲートウェイ VM が予期せず再起動された場合、HardReboot 通知が表示されることがあります。このような再起動の原因としては、電源の喪失、ハードウェア障害、またはその他のイベントが考えられます。VMware ゲートウェイの場合、vSphere High Availability アプリケーションのモニタリングによるリセットにより、このイベントがトリガーされることがあります。

ゲートウェイがこのような環境で実行されている場合は、HealthCheckFailure 通知の有無を確認し、VM の VMware イベントログを調べます。

Notification HealthCheckFailure

VMware vSphere HA のゲートウェイでは、ヘルスチェックが不合格になり、VM の再起動が要求されたときに HealthCheckFailure 通知が表示される場合があります。このイベントは、AvailabilityMonitorTest 通知によって示される可用性をモニタリングするためのテスト中にも発生します。この場合、HealthCheckFailure 通知の発生が想定されます。

注記

この通知は VMware ゲートウェイ専用です。

AvailabilityMonitorTest 通知が表示されることなくこのイベントが繰り返し発生する場合は、VM インフラストラクチャに問題 (ストレージ、メモリなど) がないか確認してください。さらにサポートが必要な場合は、AWS Support。

Notification AvailabilityMonitorTest

あなたが手に入れるAvailabilityMonitorTestあなたがいるときに通知するテストを実行する可用性とアプリケーションの監視VMware vSphere HA プラットフォームで実行されているゲートウェイ上のシステム。

エラー: RoleTrustRelationshipInvalid

このエラーは、ファイル共有の IAM ロールで IAM 信頼関係が正しく設定されていない (つまり、IAM ロールが、という名前のStorage Gateway プリンシパルを信頼していない) 場合に発生します。storagegateway.amazonaws.com). その結果、ファイルゲートウェイは、ファイル共有をバックアップする S3 バケットでオペレーションを実行するための認証情報を取得できなくなります。

RoleTrustRelationshipInvalid エラーを解決するには

CloudWatch メトリクスを使用したトラブルシューティング

以下では、Storage Gateway で Amazon CloudWatch メトリクスを使用する際の問題に対処するためのアクションについて説明します。

ディレクトリを参照すると、ゲートウェイの反応が遅くなります。

ファイルゲートウェイの実行時に反応が遅い場合はlsコマンドまたはディレクトリを参照する場合は、IndexFetchそしてIndexEvictionCloudWatch メトリクス:

  • そのファイルにIndexFetch実行すると、メトリックが 0 より大きくなります。lsコマンドまたはディレクトリの閲覧を行うと、影響を受けるディレクトリのコンテンツに関する情報なしでファイルゲートウェイが起動し、Amazon S3 にアクセスする必要がありました。今後そのディレクトリの内容をリストする作業の速度は上がるはずです。

  • そのファイルにIndexEvictionメトリクスが 0 より大きい場合、ファイルゲートウェイがその時点でキャッシュで管理できる制限に達したことを意味します。この場合、ファイルゲートウェイは、最近最もアクセスしていないディレクトリから一部のストレージ領域を解放して、新しいディレクトリをリストする必要があります。これが頻繁に発生し、パフォーマンスに影響がある場合は、AWS Support。

    ディスカッション方法AWS Supportユースケースに基づいてパフォーマンスを向上させるために、関連する Amazon FSX ファイルシステムのコンテンツと推奨事項。

ゲートウェイが応答しない

ファイルゲートウェイが応答しない場合は、次の操作を行います。

  • 最近再起動またはソフトウェアの更新を行った場合は、IOWaitPercent メトリクスを確認します。このメトリクスは、未処理のディスク I/O リクエストがある場合に、CPU がアイドル状態の時間の割合を示します。場合によっては、この値が高く (10 以上)、サーバーの再起動または更新後に増えていることがあります。このような場合、ファイルゲートウェイは RAM にインデックスキャッシュを再構築するため、低速のルートディスクがボトルネックになっている可能性があります。より高速な物理ディスクをルートディスクに使用することにより、この問題に対処できます。

  • そのファイルにMemUsedBytesメトリックは、MemTotalBytesメトリクスを指定すると、ファイルゲートウェイで使用可能な RAM が不足しています。ファイルゲートウェイに最低限必要な RAM があることを確認します。すでにある場合は、ワークロードとユースケースに基づいて、さらに RAM をファイルゲートウェイに追加することを検討してください。

    ファイル共有が SMB の場合は、ファイル共有に接続されている SMB クライアントの数が原因である可能性もあります。任意の時点で接続しているクライアントの数を確認するには、SMBV(1/2/3)Sessions メトリクスをチェックします。多くのクライアントが接続されている場合は、ファイルゲートウェイへの RAM の追加が必要になることがあります。

Amazon FSx ファイルシステムにはファイルが表示されない

ゲートウェイ上のファイルが Amazon FSx ファイルシステムに反映されないことに気付いた場合は、FilesFailingUploadのメトリクス. メトリックで一部のファイルがアップロードに失敗していると報告された場合は、ヘルス通知を確認してください。ファイルのアップロードに失敗すると、ゲートウェイは問題の詳細を含むヘルス通知を生成します。

ゲートウェイで Amazon FSx へのデータ転送が遅いです

ファイルゲートウェイで Amazon S3 へのデータ転送が遅い場合は、次の操作を行います。

  • そのファイルにCachePercentDirtyメトリクスが 80 以上の場合、ファイルゲートウェイは、データを Amazon S3 にアップロードするよりも高速にデータをディスクに書き込んでいます。ファイルゲートウェイからのアップロードの帯域幅を増やす、1 つ以上のキャッシュディスクを追加する、またはクライアントの書き込み速度を遅くすることを検討してください。

  • そのファイルにCachePercentDirtyメトリクスが低い場合は、IoWaitPercentのメトリクス. もしIoWaitPercentが 10 より大きい場合、ファイルゲートウェイでローカルキャッシュディスクの速度がボトルネックになっている可能性があります。キャッシュには、ローカルソリッドステートドライブ (SSD) ディスク (できれば NVM Express (NVMe)) をお勧めします。このようなディスクが使用できない場合は、パフォーマンスを向上させるために、別々の物理ディスクから複数のキャッシュディスクを使用してみてください。

ゲートウェイのバックアップジョブが失敗する、またはゲートウェイへの書き込み時にエラーが発生する

ファイルゲートウェイのバックアップジョブが失敗する、またはファイルゲートウェイへの書き込み時にエラーが発生する場合は、次の操作を行います。

  • そのファイルにCachePercentDirtyメトリクスが 90 パーセント以上の場合、キャッシュディスクに十分な空き領域がないため、ファイルゲートウェイはディスクへの新しい書き込みを受け付けることができません。ファイルゲートウェイが Amazon FSx または Amazon S3 にアップロードされている速度を確認するには、CloudBytesUploadedのメトリクス. そのメトリックをWriteBytesメトリクス。クライアントによるファイルゲートウェイへのファイルの書き込み度を示します。ファイルゲートウェイが Amazon FSx または Amazon S3 にアップロードできる速度よりも高速に書き込みを行っている場合は、少なくともバックアップジョブのサイズに対応できるキャッシュディスクを追加します。または、アップロード帯域幅を増やします。

  • バックアップジョブが失敗しても、CachePercentDirtyメトリクスが 80 パーセント未満の場合は、ファイルゲートウェイがクライアント側のセッションタイムアウトに達している可能性があります。SMB の場合は、PowerShell コマンド Set-SmbClientConfiguration -SessionTimeout 300 を使用してこのタイムアウトを増やすことができます。このコマンドを実行すると、タイムアウトが 300 秒に設定されます。

    NFS の場合は、クライアントがソフトマウントではなくハードマウントを使用してマウントされていることを確認してください。