ボリュームを置き換えると、レプリケーションの過負荷によりディスクが飽和します。コンシューマーグループが PreparingRebalance 状態から変化しない Amazon CloudWatch Logs へのブローカーログの配信エラーデフォルトのセキュリティグループがないクラスターが [作成中] 状態のまま停止しているように見えるクラスターの状態が [作成中] から [失敗] に変わるクラスターの状態は [アクティブ] であるが、プロデューサーがデータを送信できないか、コンシューマーがデータを受信できない AWS CLI は Amazon MSK を認識しませんパーティションがオフラインになるか、レプリカが同期しないディスク容量が不足しているメモリが不足しているプロデューサーが NotLeaderForPartitionException を取得するレプリケート不足のパーティション (URP) 数がゼロより大きいクラスターには __amazon_msk_canary と __amazon_msk_canary_state というトピックがありますパーティションレプリケーションが失敗するパブリックアクセスが有効になっているクラスターにアクセスできない内からクラスターにアクセスできない AWS: ネットワークの問題認証の失敗: 接続が多すぎる認証の失敗: セッションが短すぎる MSK サーバーレス: クラスターの作成に失敗する MSK 設定で KafkaVersionsList を更新できない

Amazon MSK クラスターをトラブルシューティングする

次の情報は、お使いの Amazon MSK クラスターに関する問題を解決するために役立ちます。AWS re:Post に問題を投稿することもできます。Amazon MSK Replicator のトラブルシューティングについては、「MSK Replicator のトラブルシューティング」を参照してください。

トピック

ボリュームを置き換えると、レプリケーションの過負荷によりディスクが飽和します。
コンシューマーグループが PreparingRebalance 状態から変化しない
Amazon CloudWatch Logs へのブローカーログの配信エラー
デフォルトのセキュリティグループがない
クラスターが [作成中] 状態のまま停止しているように見える
クラスターの状態が [作成中] から [失敗] に変わる
クラスターの状態は [アクティブ] であるが、プロデューサーがデータを送信できないか、コンシューマーがデータを受信できない
AWS CLI は Amazon MSK を認識しません
パーティションがオフラインになるか、レプリカが同期しない
ディスク容量が不足している
メモリが不足している
プロデューサーが NotLeaderForPartitionException を取得する
レプリケート不足のパーティション (URP) 数がゼロより大きい
クラスターには __amazon_msk_canary と __amazon_msk_canary_state というトピックがあります
パーティションレプリケーションが失敗する
パブリックアクセスが有効になっているクラスターにアクセスできない
内からクラスターにアクセスできない AWS: ネットワークの問題
認証の失敗: 接続が多すぎる
認証の失敗: セッションが短すぎる
MSK サーバーレス: クラスターの作成に失敗する
MSK 設定で KafkaVersionsList を更新できない

ボリュームを置き換えると、レプリケーションの過負荷によりディスクが飽和します。

予期しないボリュームハードウェア障害が発生した場合、Amazon MSK はボリュームを新しいインスタンスに置き換えることがあります。Kafka は、クラスター内の他のブローカーからパーティションをレプリケートすることで、新しいボリュームに再入力します。パーティションがレプリケートされてキャッチアップされると、リーダーシップと同期レプリカ (ISR) メンバーシップの対象となります。

問題

ボリュームの置き換えから復帰するブローカーでは、さまざまなサイズの一部のパーティションが他のパーティションよりも先にオンラインに戻る場合があります。これは、これらのパーティションが、他のパーティションをキャッチアップしている (レプリケートしている) のと同じブローカーからのトラフィックを提供している可能性があるため、問題になる可能性があります。このレプリケーショントラフィックは、基盤となるボリュームスループット制限を飽和させる場合があります。制限は、デフォルトの場合、1 秒あたり 250 MiB です。この飽和状態が発生すると、既にキャッチアップされているパーティションが影響を受け、キャッチアップされたパーティション (リモート Ack acks=all によるリーダーパーティションだけでなく) と ISR を共有するブローカーのクラスター全体のレイテンシーが発生します。この問題は、サイズが異なるパーティションの数が多い大規模なクラスターでより一般的です。

推奨事項

レプリケーション I/O の体制を改善するには、ベストプラクティスのスレッド設定が整っていることを確認します。
基になるボリューム飽和の可能性を減らすには、より高いスループットでプロビジョニングされたストレージを有効にします。高スループットレプリケーションの場合、最小スループット値は 500 MiB/秒が推奨されますが、実際に必要な値はスループットとユースケースによって異なります。Amazon MSK クラスター内の標準ブローカーのストレージスループットをプロビジョニングする。
レプリケーション圧力を最小限に抑えるには、num.replica.fetchers をデフォルト値 2 に下げます。

コンシューマーグループが `PreparingRebalance` 状態から変化しない

1 つ以上のコンシューマーグループが永続的リバランシング状態から変化しない場合、原因は Apache Kafka の問題である、KAFKA-9752 の可能性があります。これは Apache Kafka バージョン 2.3.1 および 2.4.1 に影響します。

この問題を解決するには、クラスターをこの問題の修正が含まれている Amazon MSK のバグ修正バージョン 2.4.1.1 にアップグレードすることをお勧めします。既存のクラスターを Amazon MSK バグ修正バージョン 2.4.1.1 に更新する方法については、「Apache Kafka バージョンのアップグレード」を参照してください。

クラスターを Amazon MSK バグ修正バージョン 2.4.1.1 にアップグレードせずにこの問題を解決するための回避策は、Kafka クライアントを静的メンバーシッププロトコルを使用するように設定するか、またはスタックしたコンシューマーグループの調整ブローカーノードを識別と再起動します。

静的メンバーシッププロトコルの実装

クライアントに静的メンバーシッププロトコルを実装するには、以下を実行します。

Kafka Consumers の設定で group.instance.id のプロパティを、グループ内のコンシューマを識別する静的文字列に設定します。
設定の他のインスタンスが静的文字列を使用できるように更新されていることを確認してください。
Kafka コンシューマーに変更をデプロイします。

静的メンバーシッププロトコルの使用は、クライアント構成のセッションタイムアウトが、コンシューマグループのリバランスを早期にトリガーすることなくリカバリできる期間に設定されている場合、より効果的です。例えば、コンシューマーアプリケーションが 5 分間の使用不可を許容できる場合、セッションタイムアウトの妥当な値は、デフォルト値の 10 秒ではなく 4 分になります。

注記

静的メンバーシッププロトコルを使用すると、この問題が発生する確率を低下させることができます。しかし、静的メンバーシッププロトコルを使用していても、この問題が発生する可能性はあります。

コーディネートブローカーノードの再起動

コーディネートブローカーノードを再起動するには、以下の操作を実行します。

「kafka-consumer-groups.sh」コマンドを使用してグループコーディネーターを特定します。
スタックしたコンシューマーグループのグループコーディネーターを、API アクションの RebootBroker を使用してリスタートします。

Amazon CloudWatch Logs へのブローカーログの配信エラー

Amazon CloudWatch Logs にブローカーログを送信するようにクラスターを設定する際には、以下の 2 つのうちのどちらかの例外が発生することがあります。

InvalidInput.LengthOfCloudWatchResourcePolicyLimitExceeded 例外が発生した場合は、/aws/vendedlogs/ から始まるロググループを使用して再試行してください。詳細については、「特定の Amazon Web Services からのログ記録を有効にする」を参照してください。

InvalidInput.NumberOfCloudWatchResourcePoliciesLimitExceeded 例外が発生した場合は、アカウントで Amazon CloudWatch Logs の既存のポリシーを選択し、次の JSON をそのポリシーに追加してください。


{"Sid":"AWSLogDeliveryWrite","Effect":"Allow","Principal":{"Service":"delivery.logs.amazonaws.com"},"Action":["logs:CreateLogStream","logs:PutLogEvents"],"Resource":["*"]}

上の JSON を既存のポリシーに追加しようとして、選択したポリシーの最大長に達しているというエラーが表示された場合は、Amazon CloudWatch Logs の別のポリシーに JSON を追加してみてください。既存のポリシーに JSON を追加したら、もう一度 Amazon CloudWatch Logs へのブローカーログの配信を設定してください。

デフォルトのセキュリティグループがない

クラスターを作成しようとしたときに、デフォルトのセキュリティグループがないことを示すエラーが表示される場合は、共有された VPC を使用している可能性があります。管理者に、この VPC のセキュリティグループを記述するアクセス許可を付与してもらうよう依頼して、再試行してください。このアクションを許可するポリシーの例については、「Amazon EC2: 特定の VPC に関連付けられた EC2 セキュリティグループの管理をプログラムによりコンソールで許可する」を参照してください。

クラスターが [作成中] 状態のまま停止しているように見える

クラスターの作成には、最大 30 分かかる場合があります。30 分間待ってから、クラスターの状態を再度確認します。

クラスターの状態が [作成中] から [失敗] に変わる

クラスターをもう一度作成してみてください。

クラスターの状態は [アクティブ] であるが、プロデューサーがデータを送信できないか、コンシューマーがデータを受信できない

クラスターの作成が成功した（クラスターの状態は ACTIVE）がデータの送受信ができない場合は、プロデューサーおよびコンシューマーのアプリケーションがクラスターにアクセスできることを確認してください。詳細については、ステップ 3: クライアントマシンを作成するのガイダンスを参照してください。

プロデューサーとコンシューマーにクラスターへのアクセスがある場合で、データの生成と消費に問題が生じる場合、原因は KAFKA-7697 である可能性があります。これは、Apache Kafka バージョン 2.1.0 に影響し、1 つ以上のブローカーでデッドロックを引き起こす可能性があります。このバグの影響を受けない Apache Kafka 2.2.1 への移行を検討してください。統合する方法について詳細は、「Amazon MSK クラスターへの移行」を参照してください。

AWS CLI は Amazon MSK を認識しません

AWS CLI がインストールされているが、Amazon MSK コマンドを認識しない場合は、 AWS CLI を最新バージョンにアップグレードします。のアップグレード方法の詳細については AWS CLI、「のインストール AWS Command Line Interface」を参照してください。を使用して Amazon MSK コマンド AWS CLI を実行する方法については、「」を参照してくださいAmazon MSK の主な機能と概念。

パーティションがオフラインになるか、レプリカが同期しない

これは、ディスクの容量不足の症状である可能性があります。「ディスク容量が不足している」を参照してください。

ディスク容量が不足している

ディスク容量の管理に関するベストプラクティスについては、「ディスク容量のモニタリング」および「データ保持パラメータの調整」を参照してください。

メモリが不足している

MemoryUsed メトリックが高くなったり、MemoryFree が低くなったりしても、問題があるわけではありません。Apache Kafka はできるだけ多くのメモリを使用し、最適に管理するように設計されています。

プロデューサーが NotLeaderForPartitionException を取得する

これは時折発生する一時的なエラーです。プロデューサーの retries の設定パラメータを現在の値よりも大きい値に設定してください。

レプリケート不足のパーティション (URP) 数がゼロより大きい

UnderReplicatedPartitions メトリックは監視すべき重要なメトリックの 1 つです。正常な MSK クラスターでは、このメトリックの値は 0 です。ゼロより大きい場合は、次のいずれかの理由が考えられます。

UnderReplicatedPartitions がスパイクの場合、着信トラフィックと発信トラフィックを処理するために適切なサイズでクラスターがプロビジョニングされていないことが問題である可能性があります。「標準ブローカーのベストプラクティス」を参照してください。
トラフィックが少ない期間も含めて UnderReplicatedPartitions が一貫して 0 より大きい場合、ブローカーにトピックアクセスを許可しない制限付き ACL が設定されていることが問題である可能性があります。パーティションを複製するには、ブローカーに READ トピックと DESCRIBE トピックの両方を許可する必要があります。DESCRIBE は、デフォルトで READ 権限が付与されます。ACL の設定については、Apache Kafka のドキュメントの「認可と ACL」を参照してください。

クラスターには __amazon_msk_canary と __amazon_msk_canary_state というトピックがあります

MSK クラスターのトピックの中に、__amazon_msk_canary および __amazon_msk_canary_state という名前のものがあることがあります。これらは Amazon MSK によって作成される、クラスターのヘルスと診断メトリクスに使用される内部トピックです。これらのトピックのサイズはごくわずかで、削除できません。

パーティションレプリケーションが失敗する

CLUSTER_ACTIONS に ACL が設定されていないことを確認してください。

パブリックアクセスが有効になっているクラスターにアクセスできない

クラスターでパブリックアクセスが有効になっていても、インターネットからアクセスできない場合は、以下の手順を実行します。

クラスターのセキュリティグループのインバウンドルールで、お使いのIP アドレスとクラスターのポートが許可されていることを確認します。クラスターポート番号のリストについては、ポート情報を参照してください。また、セキュリティグループのアウトバウンドルールでアウトバウンド通信が許可されていることを確認してください。セキュリティグループのインバウンドおよびアウトバウンドルールについてのより詳しい情報は、Amazon VPC ユーザーガイドのVPC のセキュリティグループを参照してください。
お使いの IP アドレスとクラスターのポートが、クラスターの VPC ネットワーク ACL のインバウンドルールで許可されていることを確認してください。セキュリティグループとは異なり、ネットワーク ACL はステートレスです。つまり、インバウンドルールとアウトバウンドルールの両方を設定する必要があります。アウトバウンドルールでは、IP アドレスへのすべてのトラフィック (ポート範囲: 0～65535) を許可します。より詳細な情報は、Amazon VPC ユーザーガイドのルールの追加と削除を参照してください。
クラスターにアクセスする際は、パブリックアクセスブートストラップブローカーの文字列を使用してください。パブリックアクセスが有効な MSK クラスターには、パブリックアクセス用と AWS内部からのアクセス用の 2 つの異なるブートストラップブローカーの文字列があります。詳細については、「を使用してブートストラップブローカーを取得する AWS Management Console」を参照してください。

内からクラスターにアクセスできない AWS: ネットワークの問題

Apache Kafka アプリケーションが MSK クラスターと正常に通信できない場合は、まず次の接続テストを実行します。

「Amazon MSK クラスターのブートストラップブローカーを取得する」で説明されている方法のいずれかを使用して、ブートストラップブローカーのアドレスを取得します。
次のコマンドで、bootstrap-broker を前のステップで取得したブローカーアドレスの 1 つに置き換えます。クラスターが TLS 認証を使用するように設定されている場合は、port-number を 9094 に置き換えます。クラスターで TLS 認証を使用しない場合は、port-number を 9092 に置き換えます。クライアントマシンからコマンドを実行します。
```
telnet bootstrap-broker port-number
```
ここで、ポート番号は次の値になります。
- クラスターが TLS 認証を使用するように設定されている場合、9094。
- クラスターで TLS 認証を使用しない場合、9092。
- パブリックアクセスが有効になっている場合は、別のポート番号が必要です。
クライアントマシンからコマンドを実行します。
すべてのブートストラップブローカーに対して上記のコマンドを繰り返します。

クライアントマシンがブローカーにアクセスできる場合は、接続に問題はありません。この場合、Apache Kafka クライアントが正しく設定されているかどうかを確認するには、次のコマンドを実行します。bootstrap-brokers を取得するには、「Amazon MSK クラスターのブートストラップブローカーを取得する」で説明されているいずれかの方法を使用します。topic をトピックの名前に置き換えます。


<path-to-your-kafka-installation>/bin/kafka-console-producer.sh --broker-list bootstrap-brokers --producer.config client.properties --topic topic

前のコマンドが成功した場合は、クライアントが正しくセットアップされていることを意味します。それでもアプリケーションから生成および使用できない場合は、アプリケーションレベルで問題をデバッグします。

クライアントマシンがブローカーにアクセスできない場合、以下のサブセクションで、クライアントマシンの設定に基づくガイダンスを参照してください。

同じ VPC 内の Amazon EC2 クライアントおよび MSK クラスター

クライアントマシンが MSK クラスターと同じ VPC にある場合、クラスターのセキュリティグループに、クライアントマシンのセキュリティグループからのトラフィックを受け入れるインバウンドルールがあることを確認します。これらのルールの設定については、セキュリティグループルールを参照してください。クラスターと同じ VPC にある Amazon EC2 インスタンスからクラスターにアクセスする方法の例については、「Amazon MSK の使用を開始する」を参照してください。

異なる VPC 内の Amazon EC2 クライアントと MSK クラスター

クライアントマシンとクラスターが 2 つの異なる VPC にある場合は、次のことを確認します。

2 つの VPC がピア接続されている。
ピア接続のステータスはアクティブである。
2 つの VPC のルートテーブルが正しく設定されている。

VPC ピア接続の詳細については、「VPC ピア接続の使用」を参照してください。

オンプレミスクライアント

を使用して MSK クラスターに接続するように設定されたオンプレミスクライアントの場合は AWS VPN、以下を確認してください。

VPN 接続のステータスは UP である。VPN 接続のステータスを確認する方法については、「VPN トンネルの現在のステータスを確認するにはどうすればよいですか?」を参照してください。
クラスターの VPC のルートテーブルには、ターゲットが Virtual private gateway(vgw-xxxxxxxx) 形式であるオンプレミス CIDR のルートが含まれています。
MSK クラスターのセキュリティグループは、ポート 2181、ポート 9092 (クラスターがプレーンテキストのトラフィックを受け入れる場合)、ポート 9094 (クラスターが TLS で暗号化されたトラフィックを受け入れる場合) でトラフィックを許可します。

AWS VPN トラブルシューティングのガイダンスの詳細については、「クライアント VPN のトラブルシューティング」を参照してください。

AWS Direct Connect

クライアントがを使用している場合は AWS Direct Connect、「トラブルシューティング AWS Direct Connect」を参照してください。

上記のトラブルシューティングガイダンスで問題が解決しない場合は、ファイアウォールがネットワークトラフィックをブロックしていないことを確認します。さらにデバッグを行う際は、tcpdump や Wireshark などのツールを使用してトラフィックを分析し、トラフィックが MSK クラスターに到達していることを確認してください。

認証の失敗: 接続が多すぎる

Failed authentication ... Too many connects エラーは、1 つ以上の IAM クライアントが過剰な頻度で接続を試みているため、ブローカーが自身を保護していることを示しています。ブローカーがより高頻度で新しい IAM 接続を受け入れることができるように、reconnect.backoff.ms 設定パラメータを増やすことができます。

ブローカーごとの新規接続頻度の制限について詳しくは、「Amazon MSK クォータ」ページを参照してください。

認証の失敗: セッションが短すぎる

Failed authentication ... Session too short エラーは、クライアントが期限切れになる IAM 認証情報を使用してクラスターに接続しようとすると発生します。IAM 認証情報の更新方法を確認してください。ほとんどの場合、認証情報がセッションの有効期限に近づいているため、サーバー側で問題が発生し、認証が失敗します。

MSK サーバーレス: クラスターの作成に失敗する

MSK サーバーレスクラスターを作成しようとしてワークフローが失敗した場合、VPC エンドポイントを作成するアクセス許可がない可能性があります。ec2:CreateVpcEndpoint アクションを許可して、管理者によって VPC エンドポイントを作成するアクセス許可が付与されていることを確認します。

すべての Amazon MSK アクションを実行するために必要なアクセス許可の完全なリストについては、「AWS マネージドポリシー: AmazonMSKFullAccess」を参照してください。

MSK 設定で KafkaVersionsList を更新できない

AWS::MSK::Configuration リソースの KafkaVersionsList プロパティを更新すると、次のエラーで更新が失敗します。


Resource of type 'AWS::MSK::Configuration' with identifier '<identifierName>' already exists.

KafkaVersionsList プロパティを更新すると、は古い設定を削除する前に、更新されたプロパティを使用して新しい設定 AWS CloudFormation を再作成します。新しい設定が既存の設定と同じ名前を使用しているため、 AWS CloudFormation スタックの更新は失敗します。このような更新には、リソースの置き換えが必要です。を正常に更新するにはKafkaVersionsList、同じオペレーションで Name プロパティも更新する必要があります。

さらに、設定が AWS Management Console またはを使用して作成されたクラスターにアタッチされている場合は AWS CLI、リソースの削除試行の失敗を防ぐために、設定リソースに以下を追加します。


UpdateReplacePolicy: Retain

更新が成功したら、Amazon MSK コンソールに移動し、古い設定を削除します。MSK 設定の詳細については、「Amazon MSK プロビジョンド設定」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

バージョンアップグレードのベストプラクティス

ベストプラクティス