ソース設定を構成する - Amazon Data Firehose

Amazon S3 の Apache Iceberg テーブルへの Amazon Data Firehose ストリームの配信はプレビュー中であり、変更される可能性があります。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ソース設定を構成する

ステップ 1 で選択したソースに基づいて、コンソールから Firehose ストリームに情報を送信するようにソースを設定できます。

Amazon MSK

Firehose ストリームMSKに情報を送信する Amazon を選択すると、MSKプロビジョニングされたクラスターと MSK-Serverless クラスターのいずれかを選択できます。その後、Firehose を使用して、特定の Amazon MSKクラスターとトピックからデータを簡単に読み取り、指定された S3 送信先にロードできます。

ページのソース設定セクションで、次のフィールドに値を指定します。

Amazon MSKクラスター接続

クラスター設定に基づいて、[プライベートブートストラップブローカー] (推奨) か [パブリックブートストラップブローカー]] のいずれかを選択します。ブートストラップブローカーは、Apache Kafka クライアントがクラスターに接続するときの出発点として使用するものです。パブリックブートストラップブローカーは の外部からのパブリックアクセスを目的としており AWS、プライベートブートストラップブローカーは 内からのアクセスを目的としています AWS。Amazon の詳細についてはMSK、「Amazon Managed Streaming for Apache Kafka」を参照してください。

プライベートブートストラップブローカーを介してプロビジョニングされた Amazon MSKクラスターまたはサーバーレス Amazon クラスターに接続するには、クラスターが次のすべての要件を満たしている必要があります。

  • クラスターがアクティブである必要があります。

  • クラスターは、アクセスコントロール方法の 1 つIAMとして を持っている必要があります。

  • アクセスIAMコントロール方式では、マルチVPCプライベート接続を有効にする必要があります。

  • Firehose サービスプリンシパルに Amazon MSKCreateVpcConnectionAPIオペレーションを呼び出すアクセス許可を付与するリソースベースのポリシーをこのクラスターに追加する必要があります。

パブリックブートストラップブローカーを介してプロビジョニングされた Amazon MSKクラスターに接続するには、クラスターが次のすべての要件を満たしている必要があります。

  • クラスターがアクティブである必要があります。

  • クラスターは、アクセスコントロール方法の 1 つIAMとして を持っている必要があります。

  • クラスターはパブリックにアクセス可能でなければなりません。

MSK クラスターアカウント

Amazon MSKクラスターが存在するアカウントを選択できます。これは次のいずれかになります。

  • 現在のアカウント – 現在の AWS アカウントの MSKクラスターからデータを取り込むことができます。そのためには、Firehose ストリームがデータを読み取る Amazon MSKクラスターARNの を指定する必要があります。

  • クロスアカウント – 別の AWS アカウントの MSKクラスターからデータを取り込むことができます。詳細については、「Amazon からのクロスアカウント配信 MSK」を参照してください。

トピック

Firehose ストリームがデータを取り込む Apache Kafka トピックを指定します。Firehose ストリームの作成が完了したら、このトピックを更新することはできません。

Amazon Kinesis Data Streams

Amazon Kinesis Data Streams のソース設定を次のように設定して、Firehose ストリームに情報を送信します。

重要

Kinesis Producer Library (KPL) を使用して Kinesis データストリームにデータを書き込む場合は、集約を使用して、その Kinesis データストリームに書き込むレコードを結合できます。次に、そのデータストリームを Firehose ストリームのソースとして使用すると、Amazon Data Firehose はレコードを宛先に配信する前にレコードの集約を解除します。データを変換するように Firehose ストリームを設定すると、Amazon Data Firehose はレコードを に配信する前にレコードの集約を解除します AWS Lambda。詳細については、「Kinesis Producer Library を使用した Amazon Kinesis Data Streams プロデューサーの開発」および「集約」を参照してください。

ソース設定 で、Kinesis データストリームリストで既存のストリームを選択するか、 ARN形式でデータストリームを入力しますarn:aws:kinesis:[Region]:[AccountId]:stream/[StreamName]

既存のデータストリームがない場合は、作成 を選択して Amazon Kinesis コンソールから新しいデータストリームを作成します。 Amazon Kinesis 新しいストリームを作成したら、更新アイコンを選択して Kinesis ストリームリストを更新します。多数のストリームがある場合は、[Filter by name] を使用してリストをフィルタリングします。

注記

Kinesis データストリームを Firehose ストリームのソースとして設定すると、Amazon Data Firehose PutRecordおよび PutRecordBatchオペレーションは無効になります。この場合に Firehose ストリームにデータを追加するには、Kinesis Data Streams PutRecordおよび PutRecordsオペレーションを使用します。

Amazon Data Firehose は、Kinesis ストリームLATESTの位置からデータの読み取りを開始します。Kinesis Data Streams の位置の詳細については、「」を参照してくださいGetShardIterator

Amazon Data Firehose は、シャードごとに Kinesis Data Streams GetRecordsオペレーションを 1 秒に 1 回呼び出します。ただし、フルバックアップが有効になっている場合、Firehose はシャードごとに 1 秒に 2 回 Kinesis Data Streams GetRecordsオペレーションを呼び出します。1 つはプライマリ配信先、もう 1 つはフルバックアップ用です。

複数の Firehose ストリームが同じ Kinesis ストリームから読み取ることができます。他の Kinesis アプリケーション (コンシューマー) も同じストリームから読み取ることができます。Firehose ストリームまたは他のコンシューマーアプリケーションからの各呼び出しは、シャードの全体的なスロットリング制限にカウントされます。スロットリングを回避するため、アプリケーションを注意深く計画してください。Kinesis Data Streams の制限事項の詳細については、「Amazon Kinesis Streams の制限」を参照してください。

次のステップに進み、レコード変換と形式変換を設定します。