データの準備とクリーニング

データの準備とクリーニングは、データライフサイクルの最も重要なものの、最も時間のかかる段階の 1 つです。次の図は、データ準備とクリーニングのステージがデータエンジニアリングの自動化とアクセスコントロールのライフサイクルにどのように適合するかを示しています。

データの準備またはクリーニングの例を次に示します。

テキスト列をコードにマッピングする
空の列を無視する
空のデータフィールドを 0、None、またはで埋める ''
個人を特定できる情報 (PII) の匿名化またはマスキング

さまざまなデータを含む大規模なワークロードがある場合は、データの準備とクリーニングタスクに Amazon EMR または AWS Glue を使用することをお勧めします。Amazon EMR と AWS Glue はどちらも非構造化データ、半構造化データ、リレーショナルデータで動作し、どちらも Apache Spark を使用してを作成DataFrameしたり、水平処理をDynamicFrame操作したりできます。さらに、AWS Glue DataBrew を使用して、ノーコードアプローチでデータをクリーンアップおよび処理できます。さらに、DataBrew は列統計を使用してデータセットをプロファイリングし、データ系統を提供し、すべてまたは指定された列のデータ品質ルールを含めることができます。

分散処理を必要とせず、15 分以内に完了できる小規模なワークロードの場合は、データの準備とクリーニングに AWS Lambda を使用することをお勧めします。Lambda は、小規模なワークロード向けのコスト効率が高く軽量なオプションです。クラウドに入ることができない安全性の高いデータの場合は、AWS Outposts サーバーを使用して Amazon Elastic Compute Cloud (Amazon EC2) インスタンスでデータ匿名化を実行することをお勧めします。

データの準備とクリーニングに適した AWS サービスを選択し、選択したトレードオフを理解することが重要です。たとえば、AWS Glue DataBrew 、Amazon EMR から選択するシナリオを考えてみましょう。AWS Glue は、ETL ジョブの頻度が低い場合に最適です。頻度の低いジョブは、1 日に 1 回、1 週間に 1 回、または 1 か月に 1 回行われます。さらに、データエンジニアが Spark コードの記述 (ビッグデータのユースケースの場合) または一般的なスクリプトに習熟していると仮定できます。ジョブの頻度が高い場合、AWS Glue を常に実行するとコストがかかる可能性があります。この場合、Amazon EMR は分散処理機能を提供し、サーバーレスバージョンとサーバーベースのバージョンの両方を提供します。データエンジニアに適切なスキルセットがない場合、または結果を高速に配信する必要がある場合は、DataBrew が適しています。DataBrew は、コード開発の労力を削減し、データの準備とクリーニングプロセスを高速化できます。

処理が完了すると、ETL プロセスのデータは AWS に保存されます。ストレージの選択は、処理するデータのタイプによって異なります。たとえば、グラフデータ、キーと値のペアデータ、画像、テキストファイル、リレーショナル構造化データなどの非リレーショナルデータを操作できます。

次の図に示すように、次の AWS サービスをデータストレージに使用できます。

Amazon S3 は、非構造化データまたは半構造化データ (Apache Parquet ファイル、画像、ビデオなど) を保存します。
Amazon Neptune は、SPARQL または GREMLIN を使用してクエリできるグラフデータセットを保存します。
Amazon Keyspaces (Apache Cassandra 用）は、Apache Cassandra と互換性のあるデータセットを保存します。
Amazon Aurora はリレーショナルデータセットを保存します。
Amazon DynamoDB は、キー値またはドキュメントデータを NoSQL データベースに保存します。
Amazon Redshift は、構造化データのワークロードをデータウェアハウスに保存します。

正しい設定で適切なサービスを使用することで、データを最も効率的かつ効果的な方法で保存できます。これにより、データの取得に伴う労力が最小限に抑えられます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

データ収集

データ品質チェック