システムロールバックのベストプラクティス

Amazon Managed Service for Apache Flink の自動システムロールバック機能とオペレーション可視性機能により、アプリケーションの問題を特定して解決できます。

システムロールバック

コードのバグやアクセス許可の問題などの顧客エラーが原因でアプリケーションの更新またはスケーリングオペレーションが失敗した場合、この機能にオプトインすると、Amazon Managed Service for Apache Flink は以前の実行中のバージョンへのロールバックを自動的に試行します。詳細については、「Managed Service for Apache Flink アプリケーションのシステムロールバックの有効化」を参照してください。この自動ロールバックが失敗した場合、またはオプトインまたはオプトアウトしていない場合、アプリケーションは READY状態になります。アプリケーションを更新するには、次のステップを実行します。

手動ロールバック

アプリケーションが進行しておらず、長期間一時的な状態である場合、またはアプリケーションがに正常に移行したがRunning、正常に更新された Flink アプリケーションで処理エラーなどのダウンストリームの問題が表示される場合は、 RollbackApplication API を使用して手動でロールバックできます。

呼び出し RollbackApplication - これにより、以前の実行中のバージョンに戻り、以前の状態が復元されます。
DescribeApplicationOperation API を使用してロールバックオペレーションをモニタリングします。
ロールバックが失敗した場合は、前のシステムロールバックステップを使用します。

オペレーションの可視性

ListApplicationOperations API には、アプリケーション上のすべてのカスタマーオペレーションとシステムオペレーションの履歴が表示されます。

失敗したoperationId をリストから取得します。
を呼び出しDescribeApplicationOperation、ステータスと statusDescriptionを確認します。
オペレーションが失敗した場合、説明は調査する潜在的なエラーを指します。

一般的なエラーコードのバグ： ロールバック機能を使用して、最後に動作しているバージョンに戻ります。バグを解決し、更新を再試行してください。

アクセス許可の問題： DescribeApplicationOperationを使用して、必要なアクセス許可を確認します。アプリケーションのアクセス許可を更新して再試行します。

Amazon Managed Service for Apache Flink サービスの問題： を確認する AWS Health Dashboard か、サポートケースを開きます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

FlinkRuntimeException：「許可されていない設定変更 (複数可) が検出されました」

Hudi 設定のベストプラクティス