パイプラインのコンポーネント、インスタンス、試行 - AWS Data Pipeline

パイプラインのコンポーネント、インスタンス、試行

スケジュールされたパイプラインに関連付けられる項目には 3 つのタイプがあります。

  • パイプラインコンポーネント – パイプラインコンポーネントはパイプラインのビジネスロジックを表し、パイプライン定義のさまざまなセクションによって表されます。パイプラインコンポーネントは、ワークフローのデータソース、アクティビティ、スケジュール、および前提条件を指定します。これらは親コンポーネントからプロパティを継承できます。コンポーネント間の関係は参照によって定義されます。パイプラインコンポーネントは、データ管理のルールを定義します。

  • インスタンス AWS Data Pipeline はパイプラインを実行するときに、パイプラインコンポーネントをコンパイルして、一連のアクション可能なインスタンスを作成します。各インスタンスには、特定のタスクを実行するためのすべての情報が含まれています。完全なインスタンスのセットは、パイプラインの To-Do リストです。AWS Data Pipeline は、Task Runner に処理するインスタンスを渡します。

  • 試行 – 堅牢なデータ管理を提供するために、AWS Data Pipeline は失敗したオペレーションを再試行します。この処理は、タスクが最大許容再試行回数に到達するまで続行されます。試行オブジェクトは、さまざまな試行、結果、および失敗の理由(該当する場合)を追跡します。​基本的に、試行はカウンター付きのインスタンスです。AWS Data Pipeline は、Amazon EMR クラスターや EC2 インスタンスなど、以前の試行と同じリソースを使用して再試行を行います。

注記

失敗したタスクの再実行は耐障害性戦略の重要な部分であり、AWS Data Pipeline のパイプライン定義では再試行を制御するための条件としきい値を提供します。ただし、AWS Data Pipeline では指定されたすべての再試行回数に到達するまで失敗がレポートされないため、再試行回数が多すぎると、復旧不可能な障害の検出が遅れる可能性があります。再試行が AWS リソースで実行されている場合、余分な再試行によって追加料金が発生することがあります。したがって、どのような場合に、再試行と関連設定を制御するために使用する AWS Data Pipeline のデフォルトの設定を超えることが適切であるかを十分に検討する必要があります。


                        AWS Data Pipeline コンポーネント、インスタンス、試行